テープ起こし・音声起こしの総合情報サイトokoso | 上手な録音起こし方の基本

上手な録音起こし方の基本

再生ソフトの最近のブログ記事

再生ソフト5条件のうち「mp3、wma、wav」以外の音声ファイルを再生できるは、スマホ録音された音声にも対応せざるを得ないということで、あまりありがたい話ではありません。

 

これに比べて、音声起こしする側にもメリットがあるのが、動画ファイルを再生できるです。

 

douga1.jpg

 

 

動画は何といっても「見える」わけで、見えると次の点で作業がやりやすくなります。

・資料を参照できる

・発言者を特定できる

 

資料を参照できる

専門用語がたくさん出てくる音声では、資料を参照できると用語の特定に役立ちます。しかし、20分のプレゼンにパワーポイントが40枚もあったりする音声では、「えーと、時間の関係でこの辺はちょっと飛ばさせていただきまして」などという発言が、しばしば発生します。

資料のファイルを送ってもらっても、音声だけ聞いていると、いったい何枚飛ばされたのか、分かりません。動画でパワーポイント画面が映っていれば、今どのスライドかは一目瞭然です。

 

発言者を特定できる

何人も出席者がいる会議や座談会で、音声から話者を特定するのは難しいものです。

出席者当人は、決してお互いの声が似ているとは感じないものですが、録音されてしまうと、そんなに驚くほどの差異はありません。「いや、ちょっと難しいですね」などといった短い発言は、なかなか特定できません。

 

動画を見ると「口が動いている人」ということで、簡単に発言者を特定できます。

意外なのは、テーブルがロの字やコの字に配置されて真後ろから映っている人、すなわち口元が見えない人でも、「今しゃべっているのはこの人」と特定できることです。

 

人は頭を動かしながらしゃべっている

会議や座談会の動画を見ていて分かることは、人はしゃべるとき、そのリズムで頭を動かす、というか自動的に頭が動くということです。

後ろから映っている人の頭が、トークに合ったリズムで動いている。他の人は、身動きはしているけれども、言葉の流れや言葉の切れ目に合う身動きではない。というときは、この人と判断して大丈夫なのです。

 

もちろん、動画ファイルでの作業には問題もあります。例えば…

・ファイルサイズが大きすぎて、インターネット経由の受け渡しが難しいことがある。

・遠距離から撮影されていると、声が遠いし顔も見えない。

・至近距離から話者の顔がずっとアップで撮影されているのも、なんだか気まずい(笑)。

 

動画の再生状態はPCの性能で決まる

ちなみに、動画ファイルは同じ長さの音声ファイルに比べて、ファイルサイズがずっと大きくなります。何倍程度になるかは、動画や音声それぞれの設定によるので一概にはいえませんが。

ExpressScribeのユーザーサポートに質問したところ、動画を軽快に扱えるかどうかは、PCの性能に左右される、再生ソフトの性能とは直接関係しない。とのことです。

 

というわけで、2015年の私が考えた、音声起こし用再生ソフトの5条件はこれで全部です。

1)ちょっと戻りができる

2)フットスイッチが使える

3)音声のタイムをコピーできる

4)「mp3、wma、wav」以外の音声ファイルを再生できる

5)動画ファイルを再生できる

 

のろのろ連載しているうちに年が明けて、それどころか、もう1年の4分の1が終わろうとしています…。

 

1~3を満たす再生ソフトはOkoshiyasu2はじめいくつかあるのですが、1~5まで満たすものは限定されて、ExpressScribeのプロ版ぐらいしか思いつきません。

それで、年末休みに、自宅PCにもExpressScribeプロ版を入れました。今日WEBサイトを見たら49.99ドルの円換算という表示ですが、年末キャンペーンか何かだったようで、39.99ドルの円換算で買えました。

 

再生ソフトの5条件
第1回  第2回  第3回  第4回

今どきのテープ起こし用再生ソフトの条件、4つ目はこれだと私は考えます。

 

4)「mp3、wma、wav」以外の音声ファイルを再生できる

 

物持ちのいい会社・個人は多い

ICレコーダーを買い替えず、10年も前の機種を今でも大事に使っている人や会社は、案外多いものです。

古い機種は、当時フラッシュメモリが高価だったことから、記憶部が今ほど大容量ではありません。小さい領域に長い音声を録音するために、ビットレートは32kpbs程度でした。

ビットレートというのは、写真でいえば解像度のようなものです。数字が大きいほど音質はきめ細かくなります。ここ数年で発売されたビジネス用途のレコーダーなら、ビットレートは通常128以上です。

 

ビットレート32程度は、あまりに粗いのです。音が不鮮明ですし、話者の聞き分けが非常に困難です。10名も出席者がいる会議の録音となると、128の音声に比べて作業時間は倍増します。

 

「ここに録音アプリがある」?

このような事情をお客さまに訴えると、もちろんお客さまは分かってくださいます。しかし、備品の買い替えは、会社によってはなかなか上に通らなかったりします。

気落ちしたお客さまがふと手元のスマホを見ると、「音声レコーダー」といったアプリがインストールされています。

「去年買ったばかりのスマホだから、古いレコーダーよりは音質もましだろう。私物のスマホだけどこれで録音してみよう」と思われるのも、無理からぬことです。

 

 

0203-44.png

 

アプリ「音声レコーダー」の画面。

 

とはいえ、スマホ録音の音声は、「10年物のレコーダーに比べれば少しはいい」という程度です。もちろんモノラル録音です。

クライアントに対して、今度は「スマホを使わないでほしい」という要望を出すのが、また私の仕事になります。

(ビットレート32に逆戻りも困る…。いっそこちらでレコーダーを提供して、これに録音してくださいとお願いするのはどうかと検討中)

 

m4aや3gpへの対応は続く予感

継続して発注してくださるお客さまに対しては、お願いしたりお伝えしたりできます。しかし一方、単発のお客さまが、そういう経緯なく「ここに録音アプリがあるじゃん」とスマホ録音されることも、昨今は増えてきました。

 

ですから、

4)「mp3、wma、wav」以外の音声ファイルを再生できる

…は、当面やっぱり必要条件だろうと思うのです。

スマホで録音された音声は、多くは拡張子m4aとか3gpといった音声ファイル形式になるからです。

 

次回は、似た問題ですが実はちょっと違う、「5)動画ファイルを再生できる」をお送りします。

 

再生ソフトの5条件
第1回  第2回  第3回  第4回

明けましておめでとうございます。

「再生ソフトの5条件」の第2回です。年越しになってしまいました。

 

前回は、最初の2つの条件について書きました。

1)ちょっと戻りができる

2)フットスイッチが使える

 

今回は

3)音声のタイムをコピーできる

です。

 

アナログ時代のタイム表示は大ざっぱだった

テープレコーダーにも、タイムを表示する機能はありました。でもテレコとは、テープという薄くて伸びやすいものをぐるぐる巻き取りながら再生するアナログ方式です。秒単位までの正確さはありませんでした。

 

IMG_20160107_163227.jpg

 

ソニーのウオークマン。カウンターはどんな表示だったかなと数年ぶりに電源を入れようとしたら、電池が液漏れを起こしていました。もう使えそうにありません…。

 

ICレコーダーで録音する時代になると、デジタルなタイム表示が可能になりました。

そして、動画サイトなどが普及するにつれて、音声や動画のタイム表示は誰にとっても身近なものになりました。発注者から、タイムの入れ方について独自の指示があることが増えてきました。

 

 

私は、発注者から特に指示がなければ、次のようにタイムを付記しています。

聞き取れなかった箇所や文字を確認できなかった箇所の後ろに、カッコして音声のタイムを付記。

この●(01:56:22)につきましては

 

タイムの記載方法にバリエーションが増えてきた

それ以外に、発注者からは次のようなタイムの記載方法を指示されたことがあります。

1)文字起こししたファイル全体に、約5分に1回程度、タイムを記載

2)(1対1のインタビューで)質問者の発言と回答者の発言の間に、タイムを記載

3)全発言で、発言スタートのタイムを記載

 

3)の案件は、一人ひとりの発言が単語1個だったりするほど短く、発言の文字数よりタイムの文字数のほうが多いほどだったため、さすがにタイム付記の追加料金をいただきましたが。それ以外では、タイムを記載するかどうかで金額は変動させていません。

 

ES_time.jpg

最近使っている、ExpressScribeの設定画面。私はF5で「時間をコピー」にしています。

 

もはやタイムを手入力では仕事にならない

今やタイムの記載が特別なものでなくなった以上、また、記載されたタイムを参考にしながらお客さんが音声ファイルと文字起こし原稿を照合するようになった以上、「正確なタイムを」「簡単にコピーできる」機能が、音声起こしのソフトウエアには必要です。

 

音声起こしをしながら、「えーと、01、コロン、57、コロン、42」などと手で入力していては、「01:67:42」(←半角コロンと全角コロンの不統一、数字の打ち間違い)などといった誤入力を完全に防ぐことはできないからです。また、1発言ずつタイムを付記するような案件では、手入力だと作業時間が相当余計にかかるからです。

 

ちょっと戻りができて、タイムのコピーができる。ここで、おすすめの音声起こしソフトが絞られてきます。

 

MP3以外への対応は必要なのか

そして、5条件のうち4つ目はさらに問題です。

4)「mp3、wma、wav」以外の音声ファイルを再生できる

 

この4)が、今、音声起こし業界を揺るがす(?)大問題になりつつあります…。次回はこれについて書きますね。

 

再生ソフトの5条件
第1回  第2回  第3回  第4回

音声起こしのための再生ソフトには下記の条件が必要と、2010年の記事【音声ソフト10連発】で主張しました。

1)ホットキーが使える

2)再生・停止が同じキーでできる

3)ちょっと戻り(オートバックスペース)ができる

4)速聞き・遅聞き時に音程が変わらない

5)ノイズ除去など

 

2015年版 音声起こし用再生ソフトの5条件

あれから5年。私が今考える音声起こし用の再生ソフトの5条件は、次のようなものです。

1)ちょっと戻りができる

2)フットスイッチが使える

3)音声のタイムをコピーできる

4)「mp3、wma、wav」以外の音声ファイルを再生できる

5)動画ファイルを再生できる

 

ちょっと戻りは、ソフトウエアによって、「自動巻き戻し」「オートバックスペース」「停止時の自動バックステップ」など、さまざまな名称です。旧条件のうち1と2が消えたので、これが現在の1位になりました。

そして、次にフットスイッチを持ってきました。

 

ホットキーよりも足操作が最強

「ホットキーが使える」「再生・停止が同じキーでできる」が今回の条件から落ちた理由は、音声の再生・停止は足で操作するべきだと考えたからです。

 

タイピング中にマウスに持ち替えて再生・停止をするよりも、キーボードから操作できたほうが効率がいい。しかし、音声の再生・停止を足で行えば、両手がタイピングに専念できてさらに効率的です。

言葉のタイピングと音声の再生・停止という全く違った操作、しかも両方ひっきりなしに行う操作を、同じ指で行うのは、やはり不合理です。

 

あの頃はトランスクライバーだった…

音声がカセットテープに録音されていた時代、オコシストはフットスイッチを使って、音声の再生・停止や巻き戻し・早送りを行っていました。当時のテープ起こし業務用のカセットデッキはトランスクライバーと呼ばれ、これにはフットスイッチが付属していたからです(別売でしたが)。

 

0013.jpg

 

1989年発売の小冊子『絵とき・テープ起こしのテクニック』(今は絶版です)に、トランスクライバーの広告が掲載されているのを見つけました。

 

 

<次ページへ>