テープ起こし・音声起こしの総合情報サイトokoso | 今日も音声起こし中

今日も音声起こし中

音活エキスパートのブログ記事

話し言葉を音声認識して文字化するサービスやソフトウエアが、続々と発表されている。

社会に定着した技術なら、さほど注目されないだろう。紹介記事をよく見かけるのは、今はまだどの企業も自社の製品やサービスを、メディアに対して必死にアピールしているためと解釈したほうが近いと思う。

 

 

◆音声認識を警戒する人が、自分の声は認識されないと予想する矛盾

オコシストは、音声認識が普及したら職を失うのではと心配する。

それはたぶん誤解だ。

実験として、音声認識を脅威だと感じている人にこんな質問をする。

「あなたの声やしゃべり方は、正確に音声認識されそうですか?」

 

「えっ。いや、私の声は通らないし、滑舌も良くないし、たぶん完全には認識されないと思います…」

大概の人はこう答える。

 

つまり、音声認識は「サービスやソフトウエア」と「話される声や言葉」という両方が良くないと成立しないのだ。

認識されやすさは確かに個人差があるが、程度の差はあれ誰の声でも「まあだいたい」は認識される。ただ、認識率100パーセントにはならない。

 

一般に、ナマの声より録音された音声のほうが認識率が下がる

798841.jpg

◆オコシストは校正者になる

だから音声認識が普及すれば、それはそれでオコシストの腕の見せ所になるはずなのだ。「まあだいたい」音声認識されたデータを校正して仕上げるという業務になる。

 

ライターが執筆の材料にするような案件は、「まあだいたい」表示されれば、後はライター自身が処理できる。こういうテープ起こしの外注は既に多少減り始めているらしい。

 

しかし、発言内容を全部正確に文字化して、記録として後世に残す案件も存在する。そのような仕事では、音声認識が活用されることでオコシストはより高度な仕事をしていくことになると、私は予測している。

録音ファイルから自動認識されたデータの誤認識を見つけて直すのは、普通にタイピングで文字起こし(テープ起こし)するより難しい。

 

 

◆助詞の「は」と「が」は認識されにくい

録音から自動で音声認識された文字データを修正するのが、タイピングで文字起こしするより難しい理由、それは人の発音やしゃべり方は曖昧だからだ。

 

例を挙げれば、助詞の「は」(発音は「わ」)と「が」は、音声認識では混同されやすい。

助詞は軽く発音されるせいだ。

「私は」「私が」どちらも「私ア」に近く発音される。

「は」と「が」は似たような状況で使われるとはいえ、意味は異なる。

 

 

◆「私は魔王だ」「私が魔王だ」の違いは?

使い分けにはいくつかのパターンがあるが、一つはこんな使い分けだ。

・「は」→「は」の前が既出の情報、「は」の後ろが新情報

・「が」→「が」の前が新情報、「が」の後ろが既出の情報

 

例えば、「私は魔王だ」と「私が魔王だ」。

 

私は魔王だ「魔王」が新情報(私が誰か知りたいのなら教えてやるが)

私が魔王だ「私」が新情報(魔王を探しているようだが、それはまさに)

 

 

◆タイピングされた情報には曖昧さがない

「私は」「私が」どちらも「私ア」に近く発音されるから、音声認識が取り違えるのは無理もない。「私は」「私が」どちらも見た目はごく自然なので、いったん文字化されてしまうと、かなり慎重に音声を聞き文字を読まないと取り違えに気づかない

弱く曖昧に発音される箇所は他にもたくさんある。

 

タイピングだと、「が」はローマ字入力なら「ga」と入力するから、「は」と表示されるなどということはない。その意味で、タイピングされた情報には曖昧さがない。タイピングなら、少なくとも平仮名までは確実にたどり着ける。

 

 

◆話す人は「入力」していない

そもそも、タイピングしている人は「文字を入力している」という自覚があるが、会議でしゃべっている人は「今、自分の声で文字を入力している」などとは思っていない。話の内容重視で、発音や滑舌など気にしていない。

これが、録音された音声が自動認識されにくい最大の理由だ。

 

会議の現場で、自分がしゃべった言葉が即座に音声認識されて前のスクリーンに大きく表示されたら。さすがに誰でも、自分の声や話し方に相当気を使うだろう。マイクと口元の距離を工夫したり、より認識されやすい言葉を選んだりするかもしれない。

 

「自分の声がそのまま文字化される」という自覚を持って話すのが当然、という時代がいつか来るのだろうか。

 

(廿)

 

「課長、会議を録音した後そのままじゃダメだって、okosoに書いてありましたよ。音声のままでは一覧性・検索性が低いから、活用できないって」
「一覧性? 検索性?」


「例えば、部長がこの前の会議で、今期の目標について何か大事なこと言ってたじゃないですか。でも、あの部分って、会議スタートから何分経っていたか覚えてないですよね。だから、録音した音声から簡単に見つけることはできない」
「たしかに、音声全部聞くのも大変だしな。検索性か…。よし! 人数分の琵琶を買ってきてくれ」
「は?」

 

平家物語の長大な物語を、琵琶法師は丸暗記していた。「那須与一のくだりを聞かせてくれ」とか「義経の八艘飛びが出てくるところを」というリクエストに応じて、琵琶法師はただちにその部分を語る。人力暗記→脳内検索→人力再生方式による、おそるべき一覧性と検索性。

 

「おい、林。この前の会議で、部長が来期の目標について何か言っていたな。あそこを聞かせてくれ」
「前回会議の暗記は佐藤が担当です。佐藤!」
「はい。今、琵琶を調弦しますから。ではいきます。(ベベン、ベン、ベン…)ぶちょー発言していわくー(ベベベン、ベベン…)来期のーもくひょーうはー(ベンベンベン…)」

 

琵琶に乗せて語ると時間がかかる。
こうして課長は人力暗記→脳内検索→人力再生方式をあきらめ、地道に文字起こしして文書化することにした。

妄想爆発!音活エキスパートとは

 

前川:株主総会を録音して起こせって。
鈴木:株主総会の議事録って、決まった文言を書けばいいんじゃなかったですか?
前川:今年は荒れそうでしょ。決まり切った議事録とは別に、株主の発言とうちの役員の発言をきちんと文字起こしして、今後に生かしたいらしくて。外注するから、テープ起こし業者を選んでおいてくれる?


田中:私、音活エキスパートの資格持ってますけど。
鈴木:田中さん持ってるんですか? 何級ですか?
田中:文字起こし2級、文書編集3級なんだけど、録音がまだ5級なのよ。
鈴木:5級って、「話者1名のイベントを録音できる」ですよね。それだと株主総会はキビしいですよねえ。経理の佐久間さんが2級を持ってるそうですよ。前の会社で使ってたんですって。


前川:音活エキスパートって?
田中:正式名称は「音声活用エキスパート」です。音声を文字起こしすることによって仕事などに活用する技能っていう資格です。2級以上は動画活用も出てくるんですけど、身振りなどの情報よりしゃべった声の活用中心なので、「音声活用」という言葉で代表されてるそうです。
鈴木:音活エキスパートは、録音・文字起こし・文書編集の3部門に分かれてます。私、仕事に役立ちそうだと思って、文書編集から勉強し始めたんです。来週の日曜、初めての試験なんです。


前川:テープ起こしって業者に外注するのが当然と思ってたけど、結構社内に人材がいるのね。

 

…もちろん外注してもらえれば、テープ起こし業者としての私は喜びますが。こんな感じで、いろいろな職場で音活エキスパート(←架空の資格です)が活躍していたら、便利なんじゃないかと思うのです。