「音声 テキスト 変換」「会議を文字にするソフト」などの検索ワードでokosoにたどり着いている人は多い。多くの人が、音声を自動で文字にする良いソフトがあれば使いたいと探している。一方、テープ起こしを仕事にしていると、音声が自動で文字化されたら自分たちは不要になるのではと心配になる。
そこで、音声認識技術について現状を取材するべく、株式会社アドバンスト・メディアにお邪魔した。
◆105円から500万円の差は何に由来するのか
同社はソフトウエアメーカーでもあるし、システムを企業や大学、地方自治体などに納入する会社でもある。下記の製品・システムは、いずれも音声認識技術「AmiVoice」を活用している。
株式会社アドバンスト・メディアの主な製品・システム
・議事録作成支援システム
・医療現場向けの音声入力システム(現在10種類)
・コールセンター、営業支援などそれぞれの現場に特化した音声認識システム
・パソコン用音声認識ソフトウエア「AmiVoice Es 2008」
・iPhone向け「音声認識メール」
など
このうち、最初の「議事録作成支援システム」の価格は一式約500万円~、パソコン用「AmiVoice Es 2008」は実売2万円弱、iPhone向け「音声認識メール」は105円(無料版もある)。
500万円から105円までのこの価格差は、いったい何によるのだろうか。
◆“こっこうほう”という部署がなかったらどうするか
アドバンスト・メディアの受付は、来訪者の声を音声認識するシステムになっている。音声案内に従い、受話器に向かって自分の会社名と名前を言い、次に相手の部署名や名前を言う。緊張してこんな言い方になってしまった。
「こっこうほうの、あー、あくづさん」
言ってから「あくつ」さんだったと思い出したけど、3名の候補がタッチパネルに表示された。広報の阿久津夢さんは一番上に表示されていたので、それに触れる。
もし完全に私の発音どおりに音声認識して答えるとすれば、「“こっこうほう”という部署はございません」「“あくづ”という者はおりません」と表示するのが正しいかもしれない。音声認識技術とは、人間のこんな不完全な発話音声を相手にする技術だ。間投詞「あー」や言いよどみなどいわゆる無意味語だらけの発声。間違った名前の読み。しかしそんな音声でも候補を3名に絞り、しかも正解が一番上に表示されているのが素晴らしい。
















