テープ起こし・音声起こしの総合情報サイトokoso | 最新サービス・新製品情報

最新サービス・新製品情報

音声認識による文字起こしサービス「VoXT」とは(第4回)

最終回です。録音された音声をVoXTで文字認識させるための条件を、さらに探ります。

 

◆音声認識にはマイク使用が不可欠!

河村:複数の人がしゃべっている会議などでも、もし全員が正しくマイクを使えばかなり認識されると思います。逆に、一人の話者でも認識率の下がるものはあります。距離が遠いですとか…。

 

廿:セミナーを聞きに行って自分の席にICレコーダーを置いても、講師がナマ声だったら、距離の問題で難しいということですね(※録音は、もちろん録音禁止でないイベントの場合です)。その点、講師がマイクを使っていて、会場のスピーカーの性能や配置がよければ、自分の席からでもかなりクリアな音質で録れます。そのレベルでもまだ音声認識は微妙ですか。

 

鶴田:そうですね。拡声される前の段階の音、つまりミキサーからライン録りしていただくほうが確実です。あるいは、スピーカーのすぐ前にICレコーダーを置いていただくといいと思います。

 

◆クリアに聞こえても音は拡散している

人間の耳にはクリアに聞こえても実際には、例えば「部屋の左右2つのスピーカーから出る音」は、それぞれに拡散し、部屋の天井や床、壁などに反射して、無数の波になってICレコーダーに押し寄せます。そのごく微妙な時差で音質がぼやけるわけです。

拡散せずレーザー光のようにまっすぐ届く音を確保するには、マイクが接続されているミキサーに直接ラインでつなぐこと。次善の策として、声と録音機材の距離を目一杯縮めることなのです。

 

河村:認識精度はどうしても録音環境に依存します。今のところ、録音方法などのいろいろな条件が合致してはじめて精度が上がります。でも、今後はもう少し幅を持たせられるよう、開発に注力しています。

理想は、ユーザーの方が音声の録音環境まで考えていただけるようになることですね。いい音質で録ればかなり簡単に、「まず音声認識させ→便利ソフトでちょっと残った誤認識部分をスピーディーに修正」という手順で仕上げられることを知っていただければ。もちろん当社の技術もどんどんアップさせて、たくさん利用していただけるようになりたいと思っています。

 

廿:(首が折れそうなほど激しく同意)

 

例えばセミナーでも、主催者側であれば、会場の音響担当者に「ラインから音をこれに」とひとこと依頼するだけで、拡声前のクリアな音をミキサーからICレコーダーに直接録ってもらえます。その知識がないために、一番後ろの事務局席で録音していたりするのです。

そういう音声は、音声認識に向きません。また、オコシストに音声起こしを発注していただいても、聴取不能箇所の多い納品データになりがちです(もわーんとエコーがかかって、聞き取りにくいんですよー)。

 

◆「録音知識の普及」がカギになる

舗装された道路、信号やカーブミラーの設置、交通法規の周知。そういった条件が揃うことによって、自動車は性能を発揮できています。同様に、これが普及してこそ音声は活用できる!という条件はいくつかあると思います。

なかでも、「録音に関する知識」は大きな課題です。VoXTの「1分間無料お試し」は、「こういう録音は認識されるのか」「こういう録音だときついのか」と、ユーザーさんが実感してくれるきっかけの一つになりそうですね。

 

というわけで、念のためVoXTのURLをもう一度はっておきますね。

VoXT

https://voxt.jp/


音声認識による文字起こしサービス「VoXT」とは バックナンバー
第1回  第2回  第3回  第4回