テープ起こし・音声起こしの総合情報サイトokoso | 上手な録音起こし方の基本

上手な録音起こし方の基本

ライターのための音声認識入門(3)

話者の口元近くで録音すればその分認識率が上がる。そこで前回は、インタビューの録音に何らかのマイクを使うことを提案した。

それでも音声認識がうまくいくとは限らない理由が、あと2つある。スマホの音声入力が短時間で止まることと、私たち自身の話し方の問題だ。

 

スマホの音声入力はすぐ止まってしまう

実は、1時間の音声を連続して認識させることはできない。スマホの音声入力モードは、1分ほどで勝手に停止してしまうのだ。

認識が止まるたびに対応するのは、かなり面倒だ。それに、止まってばかりでは「ご飯を食べている間に自動認識をかけておく」といったことができない。

 

音声入力(音声認識)専用のソフトやサービスはどうだろう。AmiVoiceやドラゴンスピーチには、録音された音声を認識する機能がある。

 

ドラゴンスピーチで音声ファイルを自動認識させる手順:

音声ファイルから文字起こし

http://japan.nuance.com/dragonspeech/function.html#recorder

 

この手順には「※あらかじめ、録音機器からの文字起こし用のプロファイルを作成しておく必要があります」と記載されている。何だろう?

いずれ試してレポートしたい。

 

AmiVoiceで自動認識させるには、付属する別ソフト「書起しエディタ」を使用する。

ICレコーダーからの書起し

http://sp.advanced-media.co.jp/ic.html

 

「書起しエディタ」を試してみた。これはスマホではなくPCで使うソフトだ。こんな感じに認識される。

 

0323-2.jpg

 

 

「書起しエディタ」は、長い音声を連続して認識させることができる。とはいえ、マイクを使ってさえこの程度の認識率。これでは実務には使えない。

 

話し方次第でここまで認識される

実は、認識率が悪いのはソフトウエアのせいではない。話し方のせいだ。

同じ「書起しエディタ」で、ここまでばっちり認識させることだってできるのだ。句読点までほぼ正しく挿入されている。

 

0323-3.jpg

 

 

これも同じく私がしゃべって録音した音声だが、この音声では「音声認識されやすい話し方」に徹した。整然と読み上げる口調だ。

だから低い認識率はソフトウエアのせいではない。の、だが。

インタビューするとき、読み上げ調の話し方で質問するのは、不自然すぎる。まして、インタビューに答える側が読み上げ調で返事をしたら、その人の感情もパッションもさっぱり伝わらない。

 

みんながボイストレーニングを受ければ…?

音声認識の導入が比較的進んでいるのは、地方議会だ。

議会においては、議事のほとんどは、議員が質問原稿を読み上げ、首長や役所側が答弁原稿を読み上げるという形で進む。つまり読み上げ調なので、ナチュラルな会話より認識されやすいのだろう。

 

しかし、ナチュラルな会話の認識率をアップする方策も、あることはある。

相手が聞き取ってくれることを知っているから、私たちは普段軽く発音している。さほど息を使っていないし、唇の動かし方も曖昧だ。

 

普段から、息をしっかり使って(大声を出すこととは異なる)、唇を上下左右にはっきり動かして、話せばいい。

みんなが話し方を意識する習慣を身に着け、社会人は毎年ボイストレーニングを受ける。そういう状況であれば、相手とナチュラルに対話する音声でも、そこそこ認識されるかもしれない。

 

というわけで、インタビュー音声を自動音声認識させるための提案は、次のようになる。

1)マイクを使って録音する

2)話者が、しっかり、はっきり、しゃべる

 

(手動で文字起こしをしている身としても、この1と2は切実に希望しております…)

 

 

ライターのための音声認識入門(1)へ

ライターのための音声認識入門(2)へ