テープ起こし・音声起こしの総合情報サイトokoso | 今日も音声起こし中

今日も音声起こし中

2018年4月アーカイブ

話し言葉を音声認識して文字化するサービスやソフトウエアが、続々と発表されている。

社会に定着した技術なら、さほど注目されないだろう。紹介記事をよく見かけるのは、今はまだどの企業も自社の製品やサービスを、メディアに対して必死にアピールしているためと解釈したほうが近いと思う。

 

 

◆音声認識を警戒する人が、自分の声は認識されないと予想する矛盾

オコシストは、音声認識が普及したら職を失うのではと心配する。

それはたぶん誤解だ。

実験として、音声認識を脅威だと感じている人にこんな質問をする。

「あなたの声やしゃべり方は、正確に音声認識されそうですか?」

 

「えっ。いや、私の声は通らないし、滑舌も良くないし、たぶん完全には認識されないと思います…」

大概の人はこう答える。

 

つまり、音声認識は「サービスやソフトウエア」と「話される声や言葉」という両方が良くないと成立しないのだ。

認識されやすさは確かに個人差があるが、程度の差はあれ誰の声でも「まあだいたい」は認識される。ただ、認識率100パーセントにはならない。

 

一般に、ナマの声より録音された音声のほうが認識率が下がる

798841.jpg

◆オコシストは校正者になる

だから音声認識が普及すれば、それはそれでオコシストの腕の見せ所になるはずなのだ。「まあだいたい」音声認識されたデータを校正して仕上げるという業務になる。

 

ライターが執筆の材料にするような案件は、「まあだいたい」表示されれば、後はライター自身が処理できる。こういうテープ起こしの外注は既に多少減り始めているらしい。

 

しかし、発言内容を全部正確に文字化して、記録として後世に残す案件も存在する。そのような仕事では、音声認識が活用されることでオコシストはより高度な仕事をしていくことになると、私は予測している。

録音ファイルから自動認識されたデータの誤認識を見つけて直すのは、普通にタイピングで文字起こし(テープ起こし)するより難しい。

 

 

◆助詞の「は」と「が」は認識されにくい

録音から自動で音声認識された文字データを修正するのが、タイピングで文字起こしするより難しい理由、それは人の発音やしゃべり方は曖昧だからだ。

 

例を挙げれば、助詞の「は」(発音は「わ」)と「が」は、音声認識では混同されやすい。

助詞は軽く発音されるせいだ。

「私は」「私が」どちらも「私ア」に近く発音される。

「は」と「が」は似たような状況で使われるとはいえ、意味は異なる。

 

 

◆「私は魔王だ」「私が魔王だ」の違いは?

使い分けにはいくつかのパターンがあるが、一つはこんな使い分けだ。

・「は」→「は」の前が既出の情報、「は」の後ろが新情報

・「が」→「が」の前が新情報、「が」の後ろが既出の情報

 

例えば、「私は魔王だ」と「私が魔王だ」。

 

私は魔王だ「魔王」が新情報(私が誰か知りたいのなら教えてやるが)

私が魔王だ「私」が新情報(魔王を探しているようだが、それはまさに)

 

 

◆タイピングされた情報には曖昧さがない

「私は」「私が」どちらも「私ア」に近く発音されるから、音声認識が取り違えるのは無理もない。「私は」「私が」どちらも見た目はごく自然なので、いったん文字化されてしまうと、かなり慎重に音声を聞き文字を読まないと取り違えに気づかない

弱く曖昧に発音される箇所は他にもたくさんある。

 

タイピングだと、「が」はローマ字入力なら「ga」と入力するから、「は」と表示されるなどということはない。その意味で、タイピングされた情報には曖昧さがない。タイピングなら、少なくとも平仮名までは確実にたどり着ける。

 

 

◆話す人は「入力」していない

そもそも、タイピングしている人は「文字を入力している」という自覚があるが、会議でしゃべっている人は「今、自分の声で文字を入力している」などとは思っていない。話の内容重視で、発音や滑舌など気にしていない。

これが、録音された音声が自動認識されにくい最大の理由だ。

 

会議の現場で、自分がしゃべった言葉が即座に音声認識されて前のスクリーンに大きく表示されたら。さすがに誰でも、自分の声や話し方に相当気を使うだろう。マイクと口元の距離を工夫したり、より認識されやすい言葉を選んだりするかもしれない。

 

「自分の声がそのまま文字化される」という自覚を持って話すのが当然、という時代がいつか来るのだろうか。

 

(廿)