きっかけはこの記事だった。
無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ - Gigazine
音声認識は今までにも色々と試したことがあって、日々その進化には驚かされていた。
数年前には考えられなかったことだが、
今では毎日のように文字入力やらAlexaやらで音声認識を当たり前に使っている。
本当にものすごい進化だ。
以前にもVrewというソフトで動画に字幕を入れてみたことがあった。
とても精度が高くいいソフトだったが、無料では使える量が限られていることもあって
個人で趣味で使います、という用途には向かない印象だった。
上の記事、非常に長く、実に様々な情報があるが、
シロウト目には八割方何を言っているか分からない。
しかしながら、「whisper」は 精度がものすごく高い音声認識であることが分かった。
となれば、ぜひ使ってみたい。
上記ページの目次
◆Hugging Faceの体験版を使ってみる
◆Google Colabに導入して使ってみる
◆Windows環境に導入してみる
◆Windowsに導入したWhisperで文字起こしをしてみる
とりあえず二番目のGoogle Colabに導入…というのからやってみた。
(一番上のはマイクの準備がめんどうくさかったのでやめた)
記事に書いてある通りに行ったら、できた。
ただ、この方法では精度がめちゃ高いと言われているモードではできなかったので、
精度に関しては正直今までのとそんなに変わらないかな?という印象だった。
なので、いよいよ、三番目の
◆Windows環境に導入してみる
を行うことにしてみた。
記事によれば、Windowsに導入すれば高精度の音声認識もできそうである。
とりあえず、上記Gigazineさんの記事どおりにことを進めたが、
結論を言うと、
私の環境では「whisper」は動かなかった。
(ただしGPU版)
別の方法で試したCPU版の方は動作した。
そちらはまた別途記事にする。
投稿日:2022年11月15日
初出:2022年11月11日
0 件のコメント:
コメントを投稿