OpenAI が無償で提供している whisper というツールは、クラウド上ではなく自前のコンピュータで動作させることのできる、音声ファイルの文字起こしツールです。

今回は、Google Colab 上に whisper をインストールし、それぞれ何かの自分の動画ファイル (mp4) の文字起こしを試します。

Google Colab は、無料プランでもある程度のGPU(AIの計算処理を格段に高速に行うことのできる処理装置)が利用できるようになっているので、(GPU非搭載の)パソコン上で whisper を動作させるよりも高速に文字起こしが可能です。

transcribe1.ipynb をダウンロードし、Googleドライブ上にアップロードして、Google Colabで開いて実行します。
動画ファイルは、Googleドライブの「マイドライブ」にアップロードしてください。(20分間の動画で、文字起こしに10分間くらいかかります。)

文字起こしが無事に終われば、マイドライブのどこかに audio-ws09.txt などのファイルが作成されています。その中に文字起こしの結果があります。

Darrera modificació: dimecres, 30 d’octubre 2024, 14:48