音声認識の知識

2018.11.13

ライターのための音声認識入門(2)

インタビュー音声をスピーカーから流し、それをスマホの音声認識に聞かせても、ほとんど認識されないことがある。

実は、前回の認識結果を得るために、私はスタンドマイクを使った。ICレコーダーにスタンドマイクを外付けして、録音した。マイクと口元の距離は10センチほどの近さだった。

ICレコーダーにスタンドマイクを外付けして、録音している画像

 

1メートルも距離があると自動認識されない

実はこのとき、レコーダーをもう1台、自分から1メートル離れた机の上に置いた。しかし、スマホのGoogle音声認識にそちらの音声を聞かせたところ、全く認識されなかった。
インタビューの録音はライターと取材対象者の間にレコーダーを置くので、10センチの距離は実現されないのが普通だ。遠いと、相手がかなり大きい声で明瞭に話してくれない限り、自動音声認識は難しい。

この事情を説明する図を、なつかしい小冊子から見つけた。『絵とき テープ起こしのテクニック』、1989年の藤村勝巳さんの本。
音は、壁やテーブルや天井に反響し、ばらばらに録音機材に届く。微妙に時差のある音がいくつも届くため、不鮮明になる。

「絵とき テープ起こしのテクニック」小冊子の画像

音は、壁やテーブルや天井に反響し、ばらばらに録音機材に届く。この事情を説明する図。

 

人が起こすとき以上に「近くで録音」が必要

音声認識のソフトウエアは、人間のような「根性で聞き取る」ことをしてくれない。だから、近くで録音することは人が起こすとき以上に重要だ。近い音ほど大きく録音されるから、ばらばらに届く音を圧倒することができる。
自動音声認識を使いたいなら、話者の口元近くで録るべきだ。

スタンドマイクや襟元に着けるピンマイクで、口元から10~15センチ程度だろう。
AmiVoiceを出している会社アドバンスト・メディアでは「口元から5センチ以内」を推奨している。ヘッドセットマイクなら、確実に「口元から5センチ以内」が実現できる。しかし、取材相手が、快くヘッドセットマイクを装着してくれるとは限らない。

 

ハンドマイクを推奨、それでもまだハードルはある

ハンドマイクを持ってもらうのはどうだろう。これは案外いい方法なのではないかと思う。座談会やパネルディスカッションでは、ハンドマイクがあると、お互いに渡しながら誰もがきちんと使う。

レコーダーをハンドマイクのように、手に持って発言してもらうという方法もある。
ただ、レコーダー本体を持つわけだから、うっかり録音ボタンに触って、気づかないうちに録音ストップにしてしまう危険がある。やはりマイクを外付けするほうが安心だ。

(いずれにしろ、ミキサーでもかませない限り、レコーダーにマイクは1個しか接続できない。取材相手にマイクを渡して、ライターのほうはマイク無しで話すべきだろう。相手の答えがうまく文字認識されている場合、ライターはそれを読めば自分の質問を容易に思い出せる)

しかし、近くで録音してもまだ音声認識されるとは限らない。
そこにはあと2つ、事情がある。続きは次回。

 

ライターのための音声認識入門(3)へ