テープ起こし・音声起こしの総合情報サイトokoso | 上手な録音起こし方の基本

上手な録音起こし方の基本

AmiVoiceをオコシストとして使う「第5回 アルゴリズム」

前回に引き続き、「音としては正しく聞き取れているのに文字化が正しくなかった」「しかも修正できなかった」状態について、株式会社アドバンスト・メディアにお聞きします。

レベル10を超すと、滑舌がいいとは言えない私のしゃべりでも、本当によく認識されます。これだけ聞き取れるなら、漢字の修正も良い手段があるのではと思ったのですが…。今回は、音声認識というものの仕組みの不思議さに直面する回になりました。

 

③「アウト(正しくは「会うと」)」…音として正しく聞き取れているのに「会う」を選ぶと「と」が消えてしまうのはなぜ? 候補に「会うと」はなぜない?

 

ami4-3.jpg

 

 

樋爪:外来語「アウト」は1つの言葉として認識されていますが、それ以外は「あう」「と」に分割されて認識されている状態です。「会うと」「合うと」などは、AmiVoice内部では「会う」「と」、「合う」「と」という2つに分けて認識されます。

 

廿:だから「合う」「会う」などが候補に出てくるんですね。じゃあ「と」は?

 

樋爪:AmiVoiceの候補選択は、1つの言葉を別の1つの言葉に置き換えて選択する形になっていまして…。1つの言葉を2つの言葉に分けて選択するようには、なっていないのです。

 

廿:えっ!「アウト」→「会う」で1対1の対応だから、2つ目の「と」は消えてしまう?

 

樋爪:はい、現在のAmiVoiceの仕組みではそうなります…。改善していきたいと思っています。

 

現状は、もしこういう状態になったら「私の発音が悪いんだろうか」「どうやったらうまく修正できるんだろうか」などと悩まずに、さっさと消してタイピングし直したほうが速いということのようです。あるいは「あなたにあうと」など、「会うと」になりやすそうな言葉を付けて発話し直すという手もありそうです。

 

 

④動詞「わかる」は常に「分かる」という表記を使いたい。

最初の2センテンスで「わかって」「わかり」をそれぞれ候補から「分かって」「分かり」に選択し直したが、漢字にしたいという選択がそれ以降の認識結果に反映されない…。

3センテンス目も「わかって」はひらがなだし、しかも区切りが正しくない(「わ」「かって」)ので修正できない。4センテンス目は区切りが正しいが「分からない」が候補にない。

 

ami4-4.jpg

 

 

樋爪:AmiVoiceの候補選択学習は、以前に行った候補選択での変更内容を記憶して、以降の音声認識結果で同じパターンの結果に対して、記憶している変更を当てはめます。

 

廿:えっと…。つまり、「わかって」→「分かって」に直したあとは、次に「わかって」が出てくれば「分かって」になるけれども、「わからない」は別の言葉という扱いになるわけですか。

 

樋爪:「わかって」と「わからない」は別の言葉という扱いになります。それから、「わかって」同士であっても、「その前の2単語を含めて同じパターン」とみなされた場合に、前回に選択したものが選ばれるようになっています。

 

廿:つまり、AmiVoiceは品詞という概念は持ってないわけですか。「わかるは動詞だから語尾が活用する。ユーザーは分かるという表記を使いたいらしいから、活用形すべてに適用しよう」という発想は持っていない?

 

樋爪:そうです、あくまで前後の関係から候補を選ぶようになっています。ただ、品詞という概念を入れようという議論は社内で出ています。

それに「わかる」というのはたくさんの漢字がありますよね。「分かる」の他にも「判る」「解る」「解かる」「分る」…、もちろんひらがなの「わかる」もあります。そのすべての表記に対して、すべての活用形を「判らない」「判ります」「判れば」…と入れていくと、動作が重くなってしまうのです。

 

AmiVoiceの新製品発表会に過去数回行ったことがあります。「サクサク動く」という価値は、いつも強調されていました。AmiVoiceは「動作が重くなる」ことをできるだけ避けるスタンスで開発されているようです。

実際、マイクに向かってしゃべった途端に文字が画面に並ぶというのは、気持ちがいいものです。7年ぐらい前に別の音声認識ソフトを使ったときは、しゃべってから文字が出てくるまでにタイムラグがあって、スムーズにしゃべれませんでした。そのソフトのせいか、当時私のPCのスペックが低かったせいかは分かりませんが。

 

廿:とはいえ、私の仕事では「解かる」や「判る」などの表記を使う必要はなく、「分かる」のみでいいんです。じゃあ自分で「分かる」を未然形から順に全部単語登録しようかな。それでも「わ」「からない」などの区切りになってしまいますか?

 

樋爪:単語登録が優先されますから、「分からない」になると思います。

 

あるいは、もっとボイスがたまってレベルが上がっていけば、やがて「分かる」が普通に出るようになっていくのか。「テキスト学習」させることが効果的なのか。このあたりは今後いろいろやってみて確認したいと思います。

 

第5回のまとめ

・学校で習った日本語文法の概念と、AmiVoice内部の認識のアルゴリズムはかなり違う。

・今後の機能アップに期待しつつ、今のところはユーザー側が方法を探そう。

 

第1回

第2回

第3回

第4回

第6回

第7回

コメントする