Auditory Learning

概要

このツールは、PDFファイルをAIに解説してもらうツールです。音声化にはVOICEVOXを使用しています。

以下のようなウェブUIを提供します。

使い方

想定環境

新しめのdocker
cpuアーキテクチャ: x86
linux（他環境での動作確認無し。wslでもいけるかも。arm/macは怪しい。）

事前準備(voicevox-engine)

voicevox-engine を利用します。以下が実行例です。

gpu版の場合（十分なgpu環境設定が必要）

docker run --gpus all -d --rm \
  -p 50021:50021 \
  voicevox/voicevox_engine:nvidia-latest

cpu版の場合

docker run -d --rm \
  -p 50021:50021 \
  voicevox/voicevox_engine:cpu-latest

環境変数設定

.env ファイルを .env.example からコピーして環境変数を設定します。

特に、OPENAI_API_KEYの設定が必要です。

起動

$ bash ./scripts/launch.sh

起動したら http://localhost:8000 にアクセスしてください。

操作方法

左上の入力ボックスに対象とするPDFファイルのURLを入力して「開始」をクリックしてください。しばらくすると再生が始まります。「次ページ」で次のページに進みます。他のボタン等も試してみてください。

制限

モデルは gpt-4o 固定です。
音声はずんだもん固定です。
PDFのURLは公開されているものに限ります。ローカルファイルをアップロードすることはできません。

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
auditory_learning		auditory_learning
docker		docker
docs/images		docs/images
frontend		frontend
scripts		scripts
.env.example		.env.example
.gitignore		.gitignore
.python_version		.python_version
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
prompt.txt		prompt.txt
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Auditory Learning

概要

使い方

想定環境

事前準備(voicevox-engine)

gpu版の場合（十分なgpu環境設定が必要）

cpu版の場合

環境変数設定

起動

操作方法

制限

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

n-kats/auditory-learning

Folders and files

Latest commit

History

Repository files navigation

Auditory Learning

概要

使い方

想定環境

事前準備(voicevox-engine)

gpu版の場合（十分なgpu環境設定が必要）

cpu版の場合

環境変数設定

起動

操作方法

制限

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages