音声認識の知識

2018.11.13

ライターのための音声認識入門(3)

話者の口元近くで録音すればその分認識率が上がる。そこで前回は、インタビューの録音に何らかのマイクを使うことを提案した。
それでも音声認識がうまくいくとは限らない理由が、あと2つある。スマホの音声入力が短時間で止まることと、私たち自身の話し方の問題だ。

スマホの音声入力はすぐ止まってしまう

実は、1時間の音声を連続して認識させることはできない。スマホの音声入力モードは、1分ほどで勝手に停止してしまうのだ。
認識が止まるたびに対応するのは、かなり面倒だ。それに、止まってばかりでは「ご飯を食べている間に自動認識をかけておく」といったことができない。

音声入力(音声認識)専用のソフトやサービスはどうだろう。
ドラゴンスピーチの「よくあるご質問」には、録音音声からの音声認識は非常に難しいということが、繰り返し述べられている。

AmiVoiceの場合、自動認識させるには、付属する別ソフト「書起しエディタ」を使用する。
「書起しエディタ」を試してみた。これはスマホではなくPCで使うソフトだ。こんな感じに認識される。

書起しエディタの画像 「今はお忙しいところお時間をいただきましてありございます」と表記

「書起しエディタ」は、長い音声を連続して認識させることができる。とはいえ、マイクを使ってさえこの程度の認識率。これでは実務には使えない。

※AmiVoiceは、2018年12月販売終了予定

 

話し方次第でここまで認識される

実は、認識率が悪いのはソフトウエアのせいではない。話し方のせいだ。
同じ「書起しエディタ」で、ここまでばっちり認識させることだってできるのだ。句読点までほぼ正しく挿入されている。

書起しエディタ画像「今日はお忙しいところお時間をいただきましてありございます」と表記

これも同じく私がしゃべって録音した音声だが、この音声では「音声認識されやすい話し方」に徹した。整然と読み上げる口調だ。
だから低い認識率はソフトウエアのせいではない
だが、インタビューするとき、読み上げ調の話し方で質問するのは、不自然すぎる。まして、インタビューに答える側が読み上げ調で返事をしたら、その人の感情もパッションもさっぱり伝わらない。

 

みんながボイストレーニングを受ければ…?

音声認識の導入が比較的進んでいるのは、地方議会だ。
議会においては、議事のほとんどは、議員が質問原稿を読み上げ、首長や役所側が答弁原稿を読み上げるという形で進む。つまり読み上げ調なので、ナチュラルな会話より認識されやすいのだろう。

しかし、ナチュラルな会話の認識率をアップする方策も、あることはある。
相手が聞き取ってくれることを知っているから、私たちは普段軽く発音している。さほど息を使っていないし、唇の動かし方も曖昧だ。

普段から、息をしっかり使って(大声を出すこととは異なる)、唇を上下左右にはっきり動かして、話せばいい。
みんなが話し方を意識する習慣を身に着け、社会人は毎年ボイストレーニングを受ける。そういう状況であれば、相手とナチュラルに対話する音声でも、そこそこ認識されるかもしれない。

というわけで、インタビュー音声を自動音声認識させるための提案は、次のようになる。
1)マイクを使って録音する
2)話者が、しっかり、はっきり、しゃべる

(手動で文字起こしをしている身としても、この1と2は切実に希望しております…)