文字起こしの依頼

文字起こし(テープ起こし、音声起こし)って、自動音声認識で作成できないの?


 例えば家庭にスマートスピーカーを導入すれば、声でさまざまな操作ができます。

これなら、会議やインタビューの録音音声も、自動で文字化できる??

録音音声を自動認識させるサービスやアプリケーションソフトはいくつかあります。
下記は一例です。

《Google音声認識を使う自動認識の方法》

  1.  ChromeでGoogleドキュメントを作成
  2. ツール→音声入力をクリック
  3. マイクのマークが表示されるのでそれをクリック
  4. この状態で、パソコンのマイク部分に向かって、録音してあるICレコーダー(ボイスレコーダー)で音声を再生

うまく認識されれば、わざわざ音声起こしを外注しなくてもOK!

(ただし、Google音声認識は約1分ごとに勝手に停止する場合があります。そのため、長い音声の自動認識はかなり手間がかかります)
上の写真は、にぎやかなカフェでの録音音声だったので、1字も文字化されませんでした。
録音状態によって認識結果は異なります。

一般には、ナマの声に比べて、録音された声は認識率が落ちます。

スマートスピーカーと録音音声には、次のような違いがあります。

 

特に、録音状態は重要です。
音声認識ソフト※のメーカーは、録音された音声ファイルからの文字化条件として

「口元とマイクの距離が5cm以内で録音」を強く推奨しています。

※AmiVoice SP2、ドラゴンスピーチ11など

ロの字型のテーブル配置で会議を行い、下座側にレコーダーを置いた場合、上座の出席者とレコーダーは何メートルも離れます。
レコーダーに近い出席者でも、口元からレコーダーまでは5cm以上離れています。

この配置でも、人間はどの席の発言も聞き取ることができます。
人間の耳には、音の選択性があるためです。

しかし、レコーダーは、単に距離の近い音が大きく録音されます。

レコーダーの近くで紙の資料をめくる音が、発言の声よりも大きく録音されたりします。

にぎやかな場所での録音も、自動音声認識されません。

例えばカフェなら、店内のBGM、「いらっしゃいませ!」という店員の声、他のお客の話し声などが、みんな録音されてしまうからです。

 

まさに、大勢の声を1台のレコーダーで(しかも端の方で)録音していました。
この録音の自動認識は諦めます。
人間がテープ起こしすれば完全に聞き取れますか?


実は、このような録音状態だと、人間が文字起こししても聴取不能箇所が多めになることがあります。

聴取不能箇所を減らすためには、次のような対策がおすすめです。

《大人数の会議》

・一人ひとりの席にマイクをセッティングする。そして、マイクミキサーからケーブルでレコーダーに接続して録音する
(会議室に音響システムを組み込む、もしくはそのつど出張録音業者に依頼する)
(この方法が最も録音状態が良いので、自動認識もある程度使えることがある)

・そこまでのセッティングが無理な場合、1台のレコーダーに複数のマイクを接続して、広い範囲を集音する
(例えばオリンパスのバウンダリーマイクは、計6台のマイクをレコーダーに接続できる)

・それも無理な場合、上座と下座の両方にレコーダーを1台ずつ置く
(それぞれのレコーダーが、周囲の人の声をある程度集音する)

※レコーダーの設定は「会議」を選ぶ(マイクの指向性が広い範囲になる)

《インタビュー》

・飲食店などのにぎやかな場所を避け、静かな会議室などで行う
・レコーダーの設定は「商談」「インタビュー」などを選ぶ(マイクの指向性が狭い範囲になる)

 

《共通》

録音には、スマホではなくICレコーダー(ボイスレコーダー)をお使いください。
スマホは録音に特化した機材ではないため、マイク性能はICレコーダーに劣ることが一般的です。

 

文字起こしを依頼する際、
録音の設定以外にも何か条件がありますか?

はい。できるだけ資料をご提供いただきたいのです。
資料を付けていただくことで、より正確な発言記録を作成できます。

《必要な資料》

議題一覧、出席者一覧、座席表、当日使われた説明資料、発言メモなど。

《話者メモとは》

発言者名としゃべり出しの一言を記録したメモ。
話者メモがあれば、参加人数が多くても発言者名を特定できます。

 

うちの会社の会議は、内容が専門的。
しかも、略称がかなり出てきます。


はい、それはよくあります。

「ピカチュウ」と聞こえる、でも資料にはそんな言葉は出てこない。
本当は「皮下注」と言っていて、それは「皮下注射」の略。というような状況ですね。
資料を十分に確認するのはもちろん、インターネット検索も駆使します。
聞き取り力、国語力、幅広い知識を駆使して、言葉を特定していきます。
それでも判断できない言葉は勝手に創作せず、●(黒丸記号)を代わりに入力します。

 

私を含め、口下手な話し方の者もいますが。

はい、それは大丈夫です。

発言の「つっかえ」「言いよどみ」「明らかな言い間違い」などは整理して書き起こします。
ただし、語順の修正などは最低限にして、元の発言の雰囲気を生かします。

(手を加えすぎると「発言記録」ではなく書いた文章のようになってしまいますので、ほどよく加減します。)

 

分かりました。それなら文字起こしを依頼したいと思います。

ありがとうございます。下記の業務お見積りフォームボタンよりご連絡ください。

納期と料金をお見積りします。
音声1分当たり○円という形でご提示しますので、現段階で音声・動画の長さが確定していなくても差し支えありません。

《音源の送り方》

音声ファイルや動画ファイルは、ファイルサイズが大きいため、メール添付での受け渡しはできません。
宅ふぁいる便やギガファイル便など、Web上の受け渡しサービスをご利用ください。

《資料の送り方》

音声ファイルや動画ファイルと一緒に受け渡しサービスで送ってください。
ファイルサイズが小さければメール添付も可能です(当チームのメールアドレスはお見積り時にご連絡します)。

《文字起こし金額と納期の目安》

音声1分当たり300円~、メディカル(医学・薬学)系は音声1分当たり350円~

《納期》

納期の例:
月曜のご発注で音声3時間
当社の営業日は祝日を除く月~金
中(3+1)営業日で、月曜ご発注→翌週月曜の納品

納期や料金が確定した後に、音源と資料をご送付いただきます。
(ご送付のタイミングは、当方からご案内します)

株式会社エフスタイル 文字起こしチーム
〒107-0062 東京都港区南青山三丁目6-7-3F