文字起こしのツールとしてwhisperを自分のWindows PCにインストールする方法を説明します。「Whisper」は、音声からテキストへの変換や翻訳に使用されるモデルです。様々なオーディオデータを用いて訓練されています。
自分のPCでwhisperを利用できれば、無料で、1時間以上の長い会議などもかなり正確に文字起こしすることができます。whisperは使用するライブラリのバージョンや依存関係に厳しいので、以前紹介した仮想環境作成の方法でwhisper専用の環境を準備することをおすすめします。
作業の利便性を向上させようとwhisperの環境にライブラリを追加したらwhisperが動かなくなって、もう一度最初から環境構築をやり直したということが何度もあったので気をつけてください。
導入前の準備
- Gitのインストール: ソースコード管理に必要です。Windowsでのインストール方法はGitの公式ページを参照してください。
- Pythonのインストール: 仮想環境を作る際、Pythonのバージョンは3.10を指定しましょう。
- 必要なツールのインストール: GPUを使用する場合は、Build Tools for Visual Studio 2022, NVIDIAドライバ, NVIDIA CUDAツールキット 11.8, NVIDIA cuDNN 8.6が必要です。GPUを使うと文字起こしが速くなるので、GPUがある場合は是非活用しましょう。
- FFmpegのインストール: FFmpegは動画やオーディオの変換に使われるソフトウェアです。以下の手順でインストールしましょう:
- FFmpegの公式サイトからWindows版をダウンロードします。
- .7zファイルを展開し、C:\ffmpegにコピーします。
- システムの環境変数PathにC:\ffmpeg\binを追加します。
- コマンドプロンプトで「where ffmpeg」と入力してインストールを確認します。
PyTorchのインストール
PyTorchの公式サイトを確認し、必要なコマンドを実行してPyTorchをインストールします。
インストールが正しく行われたかを確認するために、以下のコマンドを実行します。
python -c "import torch; print(torch.__version__, torch.cuda.is_available())"
Whisperのインストール
- 最初に、以下のコマンドでWhisperの関連ファイルをダウンロードします。
git clone https://github.com/openai/whisper.git - 次に、以下のコマンドでWhisperをインストールします。
pip install -U openai-whisper
- リポジトリの最新コミットをインストールするには、以下のコマンドを使用します。
pip install git+https://github.com/openai/whisper.git
文字起こしの実行
ここまで準備ができたら以下のようなコマンドラインで音声や動画ファイルの文字起こしを行うことができます。成功すればテキストファイルが出力されます。
長時間の打ち合わせの文字起こしには最適ですので是非試してみてください!
コメント