話者の口元近くで録音すればその分認識率が上がる。そこで前回は、インタビューの録音に何らかのマイクを使うことを提案した。
それでも音声認識がうまくいくとは限らない理由が、あと2つある。スマホの音声入力が短時間で止まることと、私たち自身の話し方の問題だ。
スマホの音声入力はすぐ止まってしまう
実は、1時間の音声を連続して認識させることはできない。スマホの音声入力モードは、1分ほどで勝手に停止してしまうのだ。
認識が止まるたびに対応するのは、かなり面倒だ。それに、止まってばかりでは「ご飯を食べている間に自動認識をかけておく」といったことができない。
音声入力(音声認識)専用のソフトやサービスはどうだろう。
ドラゴンスピーチの「よくあるご質問」には、録音音声からの音声認識は非常に難しいということが、繰り返し述べられている。
AmiVoiceの場合、自動認識させるには、付属する別ソフト「書起しエディタ」を使用する。
「書起しエディタ」を試してみた。これはスマホではなくPCで使うソフトだ。こんな感じに認識される。
「書起しエディタ」は、長い音声を連続して認識させることができる。とはいえ、マイクを使ってさえこの程度の認識率。これでは実務には使えない。
※AmiVoiceは、2018年12月販売終了予定。
話し方次第でここまで認識される
実は、認識率が悪いのはソフトウエアのせいではない。話し方のせいだ。
同じ「書起しエディタ」で、ここまでばっちり認識させることだってできるのだ。句読点までほぼ正しく挿入されている。
これも同じく私がしゃべって録音した音声だが、この音声では「音声認識されやすい話し方」に徹した。整然と読み上げる口調だ。
だから低い認識率はソフトウエアのせいではない。
だが、インタビューするとき、読み上げ調の話し方で質問するのは、不自然すぎる。まして、インタビューに答える側が読み上げ調で返事をしたら、その人の感情もパッションもさっぱり伝わらない。
みんながボイストレーニングを受ければ…?
音声認識の導入が比較的進んでいるのは、地方議会だ。
議会においては、議事のほとんどは、議員が質問原稿を読み上げ、首長や役所側が答弁原稿を読み上げるという形で進む。つまり読み上げ調なので、ナチュラルな会話より認識されやすいのだろう。
しかし、ナチュラルな会話の認識率をアップする方策も、あることはある。
相手が聞き取ってくれることを知っているから、私たちは普段軽く発音している。さほど息を使っていないし、唇の動かし方も曖昧だ。
普段から、息をしっかり使って(大声を出すこととは異なる)、唇を上下左右にはっきり動かして、話せばいい。
みんなが話し方を意識する習慣を身に着け、社会人は毎年ボイストレーニングを受ける。そういう状況であれば、相手とナチュラルに対話する音声でも、そこそこ認識されるかもしれない。
というわけで、インタビュー音声を自動音声認識させるための提案は、次のようになる。
1)マイクを使って録音する
2)話者が、しっかり、はっきり、しゃべる
(手動で文字起こしをしている身としても、この1と2は切実に希望しております…)