whisper関連記事は以下の4つ
whisper導入後、数回使ってみて、一番ちょうどいい精度が分かった。
- 超高精度 Large
- 高精度 Medium
- 中精度 Small
- 低精度 Base
- 最低精度 Tiny
のうちの、2. 高精度(Medium CPU版)
である。
私の音声、私のPC環境、におけるちょうどいい精度なので
あくまでも参考程度に。
超高精度(Large)がイマイチな理由
・フィラーを拾いすぎる
確かに精度はものすごく高い。
「”超”高精度」を謳っているだけのことはある。
ただ、精度が高すぎるのか、フィラーを拾いすぎる。
(えー、とか、ああ、とか。)
削除されている(拾われない)フィラーもあるのだが、
拾う・拾わないの基準が分からない。
・字幕がズレる
上記フィラー「あー」が、たとえ「あー」だけであっても2秒表示される。
(最低表示秒数が2秒なのかもしれない)
それ以降の字幕がズレる。
調整が大変である。
高精度(Medium)がちょうどいい理由
・フィラーを拾わない
超高精度と違い、フィラーをほぼ拾わない。
もし欲しいフィラーがあればあとから追加すればいいだけなので、
私としてはこっちの方がありがたい。
・1字幕の長さがちょうどいい
フィラーを拾わないこともあってか、超高精度よりも1字幕が長い。
一文一字幕、という感じ。
短く細切れに生成されるより、まとまった文で生成されたものを分割する方が楽なので
やはり私にはこちらの方がいい。
・精度は充分に高い
“超”がつかない高精度ではあるが、精度は充分に高いと感じる。
3回目にして“気炎(きえん)”をちゃんと「気炎」と読み取ってくれていた。
固有名詞は最初からあまり期待していなかったのでびっくりした。
AI…だからなのか?よく分からないがすごい。
精度を問わず起こること
・エラー
同じ単語が何度も繰り返される、
同じ文が2回繰り返される、などのエラーがたまに起こる。
20分ほどの音声で1~2箇所なので、修正しきれないほどではない。
・時間がかかる
夜仕掛けて朝確認するので確かなことは分からないが、
20分ほどの音声で、
高精度 …4~5時間
超高精度…7~8時間
位かかっている感じ。
(動画のエンコードと同時に行っているので余計に時間がかかっているおそれあり。
あと単に私のPCはスペックがそれほど高くない。)
これはまぁ覚悟の上なので問題ない。
投稿日:2022年11月24日
初出:2022年11月16日
0 件のコメント:
コメントを投稿