このコーナーは全然予定通り進んでいない。今回の脱線は、音声認識の話。案外緊急だろうと思うからだ。
検索サイトからokosoに来るとき、どんな言葉で検索してたどりついているかを見ると、こんな一群がある。
「音声文字化ソフト」「音声を文字に変換するソフト」「ICレコーダー 文字化」「会話を文字化するソフト」「自動音声テキスト変換機能」「ICレコーダー 文字変換ソフト」「ICレコーダー 自動 変換」「自動音声 テキスト化 導入」
録音したままの音声では一覧性・検索性が低いことに、多くの人が気づいている。なんとか文字化、文書化したいと思っている。そのための情報を探しに来てくれているのだ。一字一句入力するのはあまりに重労働。21世紀なのだから何か自動化ソフトがあるだろうと。
しかし残念ながら、音声認識ソフトはほとんどの場合まだ実用的とは言えない。少なくとも、講演や会議などの自然なしゃべりを文字化する技術は、十分とは言えない。
Wikipediaの「音声認識」の項にも、「音声認識システムの研究開発にはコンピュータが普及しだした1970年代から21世紀初頭の現在まで、長年にわたって莫大な資金と優秀な人材が投入されてきたが、成功して普及したものはほとんどなく」とあって、本当にため息状態なのだ。
従来、一般ユーザー向きに発売されていたのは、ViaVoiceとドラゴンスピーチ(正式名称 Dragon NaturallySpeaking)だった。
このうち、ViaVoiceは2005年以降は新しいバージョンが発売されず、結局2009年8月に生産終了となった。ドラゴンスピーチはまだ市販されているけど、こちらも最新(?)バージョンは2005年のもの。
どんどん売れればさらに開発に資金が投入されて、さらに高性能な新バージョンが発売されるというのがPCソフトの世界だから、音声認識ソフトがいかに苦戦しているかが分かる。
今一番頑張っている音声認識ソフトはAmiVoiceだと思う。それでも、「AmiVoice Es 2008」の「ICレコーダーによる音声ファイル文字化の使用条件」によると、
口元とマイクの距離が5cm以内で録音した音声で、かつ、はっきりとした音声であることが条件となります。
複数の会議および講演会などで、マイクの距離が遠い場合"AmiVoice Es 2008"で文字起こしすることができません。
というわけで、録音した音声そのものを自動で文字化するには、かなり制限がある。「録音した音声を聞きながら、ヘッドセットマイクなどに向かって復唱する」という方法での音声認識なら可能だという。
(その2に続く)






















