リカblog

Whisper PR

Whisper

シェリーあい

音声認識AI Whisperとは

Whisperとは、ChatGPTで有名なOpenAIが発表した高性能な音声認識AIのことで、日本語や英語といった言語にかかわらず、精度の高い文字起こしができる点が評価されています。

Whisperは2022年9月から無料で一般公開され、約68万時間もの膨大な音声データをインターネットから収集して学習しているため、当時は文字起こし精度の高さで話題となりました。

また、現在では約100言語に対応しており、さまざまな地域のアクセントやイントネーションの違いや専門用語も問題なく認識できるため、世界中の人々が利用するようになりました。

Whisperは誰でも無料で扱えるため、会議やインタビュー、講義など幅広い場面で気軽に扱えます。

また、気になる日本語の文字起こしの精度ですが、公開されている「単語誤り率」の順位で6位の「5.3％」（Fleursデータセットの言語別WERを、large-v2モデルを用いて示した結果）となっており、日本語を他の言語に比べて高い精度で文字起こし可能と報告されています。スペイン語、イタリア語、英語、ポルトガル語、ドイツ語に続く書き起こし精度ということで、今後Whisperを試す日本企業も増えていくと予想されます。

画像引用元：https://github.com/openai/whisper

Whisperで文字起こしする方法

Google ColaboratoryはGoogleが提供する環境で、ブラウザから直接pythonを記述し、実行できるサービスとなっています。下記のステップ2でWhisper実行環境の構築を図解解説していますが、「試しにサッと使ってみたい」という人はオープンソースコミュニティ「Hugging Face」でWhisperを使ってみる。

こちらのリンクからアクセスし、赤枠の「Record from microphone」を選択することで、PC等に接続されたマイクから音声を直接入力し、保存することができます。保存した音声はその場で聞くことが可能で、「Transcribe」を選択すると数十秒程度で入力した音声を自動で文字起こししてくれます。

Whisperの使い方1：データの準備

ではGoogle Colaboratory上でWhisperを実行するために、まず文字起こしを行う音声データを準備していきます。

※読み上げ音声はiPhoneの「ボイスメモ」で録音し、Dropboxへとアップロード、PCブラウザ上のDropboxからPC環境にダウンロードした後、Google Colaboratory上にアップロード。

Whisperの使い方2：実行環境の構築

では実際にGoogle Colaboratory上でWhisperの実行環境を構築していきます。

まずGoogle Colaboratoryにアクセスします。Googleアカウントがあれば誰でもGoogle Colaboratoryにアクセス可能です。

上の画面が表示されたら「ノートブックを新規作成」を選択します。

次に画面右上の「接続」を選択してください。

「接続」の箇所が「RAM ディスク」の表示に変わったらクリックし、右下の「ランタイムのタイプを変更」を選択しましょう。

「ハードウェアアクセラレータ」を「GPU」に変更し、保存します。

次はWhisperをGoogle Colaboratoryにインストールするため、下記のコマンドを入力していきます。

!pip install git+https://github.com/openai/whisper.git

コマンドを入力し終えたら左側の実行ボタンを選択しましょう。

次に別のコードを作成し、「import whisper」と入力します。すると5秒程で実行が完了するため、画面左側のファイルを選択します。

ファイルを選択した後、「content」と書かれたファイルを開きましょう。上の画面になったら、content右側のケバブアイコンを選択し、PCから音源をアップロードします。今回は「ongen 0〜3」の4つのファイルをアップロード。

上の画像のようにアップロードした音源がcontentの下層に表示されたら成功です。

そして最後に下記のコマンドを入力します。

model = whisper.load_model(“base”)
result = model.transcribe(“ファイル名”)
print(result[“text”])

「ファイル名」の部分は、文字起こしを実行したいファイル名を入れる必要があるため、まずは「ongen 0.m4a」を入力しました。「base」の部分は、先述した5つのモデルサイズを指定できる項目です。

入力が完了したら、いよいよ実際の文字起こしに入っていきます。

Whisperの使い方3：文字起こし精度を確認

ほとんど無音の状態で録音した「ongen.m4a」のファイルを文字起こししていきます。文字起こしに要する時間は使用するPCのスペックにも影響を受けます。

引用：バーティカルSaaS AIカオスマップを初公開 – アイスマイリー

引用元：AIsmiley