【連載第1回】「会議を文字にするソフト」を探している方へ
◆音声認識は音だけで文字化しているのではない
この音声認識ソフトは、一度変換された漢字が後から変わるのが面白い。その言葉より後ろで発声される言葉から文脈を判断し直し、変換し直している。
例えば「ぎりしゃはつの」まで読んだとき、私は言葉を切って、新聞から顔を上げた。文字化が始まったかどうか、前方のスクリーンを見たのだ。そのときはスクリーンに「ギリシャ発の」と文字が出ていた。しかし、全部読み終わってもう一度スクリーンを見たときには、「ギリシャ初の」になっていた。
志村さん:音声認識は、単に音を聞いただけで文字にしているわけではなく、言語モデルによって文脈を判断しています。ですから、しゃべっていくにつれて、それより前の単語の漢字なども文脈を判断し直して、くるくる変わっていくのです。
当社の音声入力ソフトは、イントネーションやアクセント、発話スピードなどが変わっても、音声認識側で調整して認識できる仕組みになっています。そのため、話者登録やマイクトレーニングは不要なのが特長です。
◆書き言葉だからこの認識率、では話し言葉は?
もちろん、志村さんが読み上げた新聞もよく認識されている。しかしご本人のコメントは、「書き言葉の文章をある程度整然と読んでいますので、これくらいの認識率になっているわけです」。
そう、新聞記事は書き言葉(文章)だ。普通の話し言葉はこんなに整然としていない。音声認識はその話し言葉を文字化するのが目的なので、困難も大きい。
次回はいよいよ会議の音声認識を実演!















