テープ起こし・音声起こしの総合情報サイトokoso | 上手な録音起こし方の基本

上手な録音起こし方の基本

今年の1月に掲載したこちらの記事http://okoso.biz/basic/2010/01/post-3.html
ですが、
よく見ると一番下に
「起こし例の発表は、目標スケジュール2月上旬」
との文言が。

今は…7月です。半年も経っています。廿に解答例を作る時間がなかなかできないため、原田が起こし例を作りました。

 

 起こし方のパターン

 
1)できるだけしゃべりに忠実に再現する
2)「えっと」「あのー」などの無意味語(←ケバという)を削除して起こす
3)整理して要約する

それぞれの仕様をクリックすると、起こし例のぺージが開きます。

 

1)は原田が「この」というケバ(=無意味語)をたびたび発言しており、文章にすると読みにくいのですが、ツアーガイドなどしゃべりを職業とする人が言いよどみや言葉使いをチェックするときなどに使われます。

 

2)はケバをすべて取りました。1)の起こし方では840文字、2)では720文字で、ケバを取ると85.7%の文字量になっています。「~って」などの話し言葉や「思ってる」などのい抜き言葉はそのままです。ケバは不要でも話者の口調や雰囲気をそのまま残すインタビューなどで使われます。話し言葉やい抜き・ら抜き言葉などを整えると、もっと読みやすい文章になります。

 

3)では、重複している内容を削除し、ポイントごとに整理しています。すると原田がどんな手帳を使っているか、手帳を選ぶポイントが何かが一目で分かります。箇条書きにしてさらに見やすく整理する方法もあります。

 

3)のように要約をする起こし方をすると、3分の音声の内容を10秒で見返すことができます。ビジネスシーンで、会議の内容などを簡潔にまとめて保存しておきたい場合には3)の起こし方が効率的です。


それにしても、自分の発言のケバの多さにがっかりです。ICレコーダーで録音される側にはまだまだ慣れません…。

 

文●原田文恵(はらだあやめ)

前回の疑問点をもう一度リストアップしてみよう。これらはいずれも、「しゃべり方」を再現すべきかという疑問といえる。

 

テープ起こしは、聞くための言葉を読むための言葉に変換する仕事だ。「しゃべった内容」は再現すべきだが、しゃべり方の再現はほとんどの場合さほど必要とされていない。

しゃべり方の再現を重視しようとしすぎると、「えーと」「えっと」「えっとー」「っと」のどの発音かなどという、不毛な悩みに時間を取られることになる。作業効率的にも、過度にしゃべり方の再現を重視するべきではない。

 

◆こんな発話あるいは発声は文字化すべきなのか
1)「今ー」「広げてー」などと伸ばしている音は「今ー」と文字化する?
2)「えーと」「あのー」は文字化する?
3)たくさん出てくる「こう」は文字化する?
4)冒頭の「えっとすいません」は文字化する?
5)「伺っているんですけれども」は「伺っている“の”ですけれども」に直すべき?
6)「思ってる」は「思って“い”る」に直すべき?
7)「思ってるんですけど」「買おうと」という終止形で終わらないセンテンスの処理は?
8)くだけた言い回し「だとか」「なんか」などはそのまま文字化する?
9)「取材、の内容」という、言葉に詰まって間が空いた感じは再現するべき?

 

このうち、1、2、3、4、9が同じ検討グループ(仮にAとしよう)に入り、5、6、7、8が同じ検討グループ(Bとしよう)になる。

 

◆起こさないグループと直すこともあるグループ

Aは、しゃべり方のうち、起こさない(削除する)ことの多いグループ。オコシストはこれをケバと呼ぶことが多い。

 

Bは、しゃべり方を直して文字化することもあるグループ。オコシストはこれもケバに入れたり、整文と呼んだりする。
整文というのは誤解を招きやすい言い回しなので、私はあまり好きではない。「文を整える」という漢字を見ると、センテンスまたは文章全体に手を入れるイメージだが、実際には整単語・整センテンス・整文章の各レベルが存在する。

 

※整単語・整センテンス・整文章…私の造語。
※いわゆる「整文」にはもっといろいろな項目がある。それはまた今度。

 

まず、Aグループを処理して様子を見てみよう。

 

  〈1〉  〈2〉  次ページへ

私は、『話し言葉と書き言葉 テープ取材のテクニック』と『会議録作成入門 200のノウハウ・テクニック』を、テープ起こしのテキストとして日ごろ参照している。

『話し言葉と書き言葉 テープ取材のテクニック』(藤村勝巳著、テープリライト株式会社)
録音しながら取材し→文字起こしを行い→記事にまとめるまでの一連のノウハウを取り上げている。テープ起こし作業については、多少手を入れて、後の編集工程で扱いやすい発言記録を作るテクニックを解説している。

 

『会議録作成入門 200のノウハウ・テクニック』(吉川欽二著、株式会社ぎじろくセンター)
議会の会議録はいわば証拠として永年保存するものであり、その会議録に主観的に手を入れすぎれば公文書偽造に問われる危険さえあると、著者は指摘する。正確な逐語記録を作るためのノウハウを解説している。

 

hon3-kaigiroku.jpg   hon4-syuzai.jpg

 

つまり、この2冊の書籍はマスコミ系・議会系とフィールドが違うだけでなく、音声の「起こし方」も全く違う。加工しやすさを意識して起こすノウハウが『話し言葉と書き言葉』に、記録としてそれ自体を残すためのノウハウが『会議録作成入門』に詰まっている。

 

これだけ違う2冊だが、発声された言葉を何から何まで文字化すると読みにくいことは、共通して指摘されている。

 

では、何から何まで文字化しない場合、何をどう処理したらいいのか。連載第2回と第3回で例に挙げた発話は、言い間違いとそれを直そうとする発話がポイントになっていた。今回は、それ以外の問題も雑多に含む例を挙げてみよう。

 

  〈1〉  〈2〉  次ページへ

「言い間違い」や「言い間違いを直そうとする発話」までも起こすという、特殊な用途もある。例えば、次のような用途が考えられる。

 

◆特殊な用途1 言い間違いにも注目する用途
例えば、発言者本人がいかに言い間違いに気づき、どう直したかを記録する必要がある用途。言語学や心理学などの研究用の発言記録などには、こういった仕事がある。
また、マーケティングリサーチ用の聞き取り調査では、例えば「サッポロ…違う、アサヒビール」などの発言が、ブランドの認知について参考になるケースがあるので、言い間違いも注目されることがある。

 

◆特殊な用途2 映像加工を指示する用途
映像編集用
に「何でも再現」の起こし方が使われる場合がある。長い映像から音声を文字起こししておき、その文字記録をシナリオ的に使って、映像を切り出してつなぐ位置を書き込んで指示するものだ。
例えば、発言は言い間違いであっても、その部分の話者の表情がよく、映像として使いたいとする。言い間違いだが、声を消してナレーションのバックに使うことはできる。発言記録を印刷した紙にその指示を書き込む。そういう用途に使われる場合は、言い間違いも起こしておかないと指示が書き込めない。

 

  〈1〉  〈2〉  次ページへ

セミナーでは、課題提出後の評価会で「どう処理するのが正しいのか」という質問が必ず出る。一つの正解はない。仕様による+用途による+発注者の考え方による、としか答えられない。では、どのような仕様・用途・発注者の考え方であれば、どういう言葉を・どう処理するのが・比較的まし、なのか。

 

◆テープ起こしに一つの正解はない
「仕様・用途・発注者の考え方」の組み合わせは無数にあるだろうから、それぞれについて正解を提示することは現実的ではない。だいいち、どの条件に対しても、おそらくただ一つの正解はない。探るのは「比較的まし」な方法であり、「正解なのか」という問いは立てない。

 

などと抽象的なことを書いていても理解しにくいので、しゃべり言葉がどんなものか、一例を挙げよう。

 

しゃべり言葉の例
「昨日ですかね、夜中、月曜日の納品だったんですね。月曜日、今日は何曜日だ、火曜日でしたっけ。あ、ごめんなさい、火曜日の10時、今日の朝納品のものがありまして。」

 

drill.jpgこれは私の著書『テープ&音声起こし 即戦力ドリル』に収録した「総合問題1」の音声の一部。実際の発話というのは、文字どおりに再現すると理解しにくいことが分かる。

 

もし目の前の相手が上のようにしゃべったとすると、火曜日の午後にそれを聞いている私たちは、重要でなさそうな部分は無意識に聞き流す。「今朝納品する仕事があったんだな」と、大ざっぱに要点をとらえている。
大ざっぱに要点をとらえるのが、話された言葉を → 聞く ことの特徴だ。耳と脳の要点抽出処理は優秀なのだ。

 

  〈1〉  〈2〉  次ページへ

今日から不定期連載するこのシリーズに【話し言葉の処理】というタイトルを付けた。
本当は【しゃべり言葉の処理】というシリーズ名にしたかったが、「しゃべり言葉」という言い回しは定着していないように思えたので「話し言葉」にした。
「話し言葉」には、整った語感がある。しかし、実際の私たちの発話というのは「しゃべる」という語感のほうが近い。整っていないのだ。

 

だから、正確に再現すればするほど、読んだとき理解できないものになっていく。あるいは、文章として読むには違和感のあるものになってしまう。話し言葉を忠実に文字化するとはどういうことか、忠実に再現しないとすればどのように処理するか。本シリーズではその問題を考える。

 

◆テープ起こしに「ねじれ」は必然的
そもそも、話し言葉というのは聞くものだ。

 

話された言葉を → 聞く
書かれた言葉を → 読む

 

テープ起こしの仕事は、口頭で発話された言葉を文章化する。受け手側は、口頭で発話された言葉を文章として読む。そこに、次のような「ねじれ」が生ずる。

 

話された言葉を
        → 読む

 

話された言葉をどう処理すれば、このねじれを緩和して、文字化・文章化・文書化できるのだろうか。

 

※文字化・文章化・文書化は意味が違う。しかしこれらの用語を厳密に使い分けるのは困難なので、本シリーズではそのときどきの流れで使ったり、このように並べて使ったりする。また、テープ起こしを職業にする人の呼び名として「オコシスト」を主に使う。


  〈1〉  〈2〉  次ページへ

◆会議中は音声認識など意識しない
アドバンスト・メディア社にはiPhone用の「音声認識メール」というソフトもあり、Twitterでのつぶやきなどを見ていると実に好評だ。無料版もあり、有料版でも105円。
「音声認識メール」を使った人なら、この調子で自社の会議も安価で文字化できるのではと期待するかもしれない。

 

志村さん:「音声認識メール」を使うときは、皆さんうまく認識させようと意識しながらていねいにしゃべります。ところが、会議では、音声認識させようと思ってしゃべる方はほとんどいらっしゃいません。安い価格で普通の会議も全部文字化できないかという要望はよくいただくのですが、まだまだ難しいというのが現状です。

 

◆人間に難しいものはソフトウエアにも難しい
議長の指名を受けて整然と発言する議会などの音声認識でさえ、システム一式で500万円~という価格帯になり、しかも音声認識後の修正・編集作業が欠かせない。
まして普通のディスカッションなどは、人数が多いのにマイクを使わなかったり、複数の人が同時にしゃべり出したりするので、ソフトウエアに認識させるのは議会よりいっそう難しい。

 

つまり、テープ起こしの仕事で起こしにくいと感じる音声は、ソフトウエアにとっても認識しにくい。そのため、志村さんも「この議事録作成支援システムがあるからといって、速記者やテープ起こしの方がいなくなるということはないと思います」と断言されていた。

 

  1      次ページへ

 

連載第1回へ   連載第2回へ   連載第3回へ

引き続き株式会社アドバンスト・メディアのお二人に、音声認識AmiVoiceを活用した「議事録作成支援システム」の詳細について伺った。

 

◆機材につきっきりで操作する必要はない

――議事録作成支援システムは、具体的に何を納入するのですか。

 

志村さん:マイクシステムを通して発言をパソコンで文字化しますので、会議を行う部屋にマイクがない場合は、マイクなど音響設備一式も含めて納入します。それと、音声認識を行うソフトウエアAmiVoice Recorderと編集用ソフトウエアAmiVoice Rewriterが入っているパソコンです。

 

amivoice7.jpg
(実際の導入例。機材一式を収めたこのラックを会議を行う部屋に置き、マイクをつなぐ)

 

志村さん:マイクの音を、コンプレッサーとミキサーを通して、このノートパソコンに取り込みます。ノートパソコンへは普通のUSB接続になります。
ミキサーに誰かが会議中ずっと付いているという必要はありません。マイクのオン・オフは発言者ご自身にやっていただくことになります。もしくはオートマチックミキサーといって、発言があったマイクの音だけが検知できるような設備を使っていただく形になります。

 

  1      次ページへ

 

連載第1回へ   連載第2回へ   連載第4回へ

◆いよいよ議事録作成支援システムの実演

アドバンスト・メディア社の議事録作成支援システムを最初に導入したのは、静岡県沼津市議会だった(2004年)。その沼津市議会の音声を例に実演してもらった。

議事録作成支援システムは、まずAmiVoice Recorderというソフトで音声を認識させ、文字化する。その文字化のデータを、AmiVoice Rewriterというソフトで編集する。

 

(画面は左の欄から順に、話者名、開始タイムカウンタ、認識結果、編集結果。クリックで拡大)

ami2-01.png

全体にいい認識率だが、なんと議長の最初の発話「おはようございます」を正しく認識していないなど、意外な落ちもある。

 

◆不明瞭な発音は判断しきれない

途中に「観光立国性格」という文字化がある。話者の発音が「せいかく」に近いのでムリもない。発音がよどんだり微妙にずれたりすることは、実際にはよくある。こういうところは、人間が「観光立国政策」と手で修正することになる。

 

志村さん:音声認識で100パーセント正しい文字にできるわけではなく、音声認識誤りを編集する作業は必要になります。それでも、ゼロから音声を入力して起こすより効率的に文字化できます。
この編集ソフトAmiVoice Rewriterは、発話単位、つまり息継ぎをした単位に区切って文章が出力されます。人が聞きやすい単位に区切ることによって、修正がしやすい仕組みになっています。カーソルの位置と音声が連動していて、変だなと思った部分の文字をクリックすると、該当個所の音声が再生されます。その音声を聞いて実は何と言っているか確認し、文字を修正するわけです。

 

  1    次ページへ

 

連載第1回へ   連載第3回へ   連載第4回へ

「音声 テキスト 変換」「会議を文字にするソフト」などの検索ワードでokosoにたどり着いている人は多い。多くの人が、音声を自動で文字にする良いソフトがあれば使いたいと探している。一方、テープ起こしを仕事にしていると、音声が自動で文字化されたら自分たちは不要になるのではと心配になる。

そこで、音声認識技術について現状を取材するべく、株式会社アドバンスト・メディアにお邪魔した。

 

株式会社アドバンスト・メディア

 

◆105円から500万円の差は何に由来するのか

同社はソフトウエアメーカーでもあるし、システムを企業や大学、地方自治体などに納入する会社でもある。下記の製品・システムは、いずれも音声認識技術「AmiVoice」を活用している。

 

株式会社アドバンスト・メディアの主な製品・システム
・議事録作成支援システム
・医療現場向けの音声入力システム(現在10種類)
・コールセンター、営業支援などそれぞれの現場に特化した音声認識システム
・パソコン用音声認識ソフトウエア「AmiVoice Es 2008」
・iPhone向け「音声認識メール」
など

 

このうち、最初の「議事録作成支援システム」の価格は一式約500万円~、パソコン用「AmiVoice Es 2008」は実売2万円弱、iPhone向け「音声認識メール」は105円(無料版もある)。

500万円から105円までのこの価格差は、いったい何によるのだろうか。

 

◆“こっこうほう”という部署がなかったらどうするか

アドバンスト・メディアの受付は、来訪者の声を音声認識するシステムになっている。音声案内に従い、受話器に向かって自分の会社名と名前を言い、次に相手の部署名や名前を言う。緊張してこんな言い方になってしまった。

「こっこうほうの、あー、あくづさん」

言ってから「あくつ」さんだったと思い出したけど、3名の候補がタッチパネルに表示された。広報の阿久津夢さんは一番上に表示されていたので、それに触れる。

 

もし完全に私の発音どおりに音声認識して答えるとすれば、「“こっこうほう”という部署はございません」「“あくづ”という者はおりません」と表示するのが正しいかもしれない。音声認識技術とは、人間のこんな不完全な発話音声を相手にする技術だ。間投詞「あー」や言いよどみなどいわゆる無意味語だらけの発声。間違った名前の読み。しかしそんな音声でも候補を3名に絞り、しかも正解が一番上に表示されているのが素晴らしい。

 

  1       次ページへ

 

連載第2回へ   連載第3回へ   連載第4回へ