インタビュー音声をスピーカーから流し、それをスマホの音声認識に聞かせても、ほとんど認識されないことがある。
実は、前回の認識結果を得るために、私はスタンドマイクを使った。ICレコーダーにスタンドマイクを外付けして、録音した。マイクと口元の距離は10センチほどの近さだった。
1メートルも距離があると自動認識されない
実はこのとき、レコーダーをもう1台、自分から1メートル離れた机の上に置いた。しかし、スマホのGoogle音声認識にそちらの音声を聞かせたところ、全く認識されなかった。
インタビューの録音はライターと取材対象者の間にレコーダーを置くので、10センチの距離は実現されないのが普通だ。遠いと、相手がかなり大きい声で明瞭に話してくれない限り、自動音声認識は難しい。
この事情を説明する図を、なつかしい小冊子から見つけた。『絵とき テープ起こしのテクニック』、1989年の藤村勝巳さんの本。
音は、壁やテーブルや天井に反響し、ばらばらに録音機材に届く。微妙に時差のある音がいくつも届くため、不鮮明になる。
人が起こすとき以上に「近くで録音」が必要
音声認識のソフトウエアは、人間のような「根性で聞き取る」ことをしてくれない。だから、近くで録音することは人が起こすとき以上に重要だ。近い音ほど大きく録音されるから、ばらばらに届く音を圧倒することができる。
自動音声認識を使いたいなら、話者の口元近くで録るべきだ。
スタンドマイクや襟元に着けるピンマイクで、口元から10~15センチ程度だろう。
AmiVoiceを出している会社アドバンスト・メディアでは「口元から5センチ以内」を推奨している。ヘッドセットマイクなら、確実に「口元から5センチ以内」が実現できる。しかし、取材相手が、快くヘッドセットマイクを装着してくれるとは限らない。
ハンドマイクを推奨、それでもまだハードルはある
ハンドマイクを持ってもらうのはどうだろう。これは案外いい方法なのではないかと思う。座談会やパネルディスカッションでは、ハンドマイクがあると、お互いに渡しながら誰もがきちんと使う。
レコーダーをハンドマイクのように、手に持って発言してもらうという方法もある。
ただ、レコーダー本体を持つわけだから、うっかり録音ボタンに触って、気づかないうちに録音ストップにしてしまう危険がある。やはりマイクを外付けするほうが安心だ。
(いずれにしろ、ミキサーでもかませない限り、レコーダーにマイクは1個しか接続できない。取材相手にマイクを渡して、ライターのほうはマイク無しで話すべきだろう。相手の答えがうまく文字認識されている場合、ライターはそれを読めば自分の質問を容易に思い出せる)
しかし、近くで録音してもまだ音声認識されるとは限らない。
そこにはあと2つ、事情がある。続きは次回。