再生ソフト5条件のうち「mp3、wma、wav」以外の音声ファイルを再生できるは、スマホ録音された音声にも対応せざるを得ないということで、あまりありがたい話ではありません。
これに比べて、音声起こしする側にもメリットがあるのが、動画ファイルを再生できるです。
動画は何といっても「見える」わけで、見えると次の点で作業がやりやすくなります。
・資料を参照できる
・発言者を特定できる
資料を参照できる
専門用語がたくさん出てくる音声では、資料を参照できると用語の特定に役立ちます。しかし、20分のプレゼンにパワーポイントが40枚もあったりする音声では、「えーと、時間の関係でこの辺はちょっと飛ばさせていただきまして」などという発言が、しばしば発生します。
資料のファイルを送ってもらっても、音声だけ聞いていると、いったい何枚飛ばされたのか、分かりません。動画でパワーポイント画面が映っていれば、今どのスライドかは一目瞭然です。
発言者を特定できる
何人も出席者がいる会議や座談会で、音声から話者を特定するのは難しいものです。
出席者当人は、決してお互いの声が似ているとは感じないものですが、録音されてしまうと、そんなに驚くほどの差異はありません。「いや、ちょっと難しいですね」などといった短い発言は、なかなか特定できません。動画を見ると「口が動いている人」ということで、簡単に発言者を特定できます。
意外なのは、テーブルがロの字やコの字に配置されて真後ろから映っている人、すなわち口元が見えない人でも、「今しゃべっているのはこの人」と特定できることです。
人は頭を動かしながらしゃべっている
会議や座談会の動画を見ていて分かることは、人はしゃべるとき、そのリズムで頭を動かす、というか自動的に頭が動くということです。
後ろから映っている人の頭が、トークに合ったリズムで動いている。他の人は、身動きはしているけれども、言葉の流れや言葉の切れ目に合う身動きではない。というときは、この人と判断して大丈夫なのです。
もちろん、動画ファイルでの作業には問題もあります。例えば…
・ファイルサイズが大きすぎて、インターネット経由の受け渡しが難しいことがある。
・遠距離から撮影されていると、声が遠いし顔も見えない。
・至近距離から話者の顔がずっとアップで撮影されているのも、なんだか気まずい(笑)。
動画の再生状態はPCの性能で決まる
ちなみに、動画ファイルは同じ長さの音声ファイルに比べて、ファイルサイズがずっと大きくなります。何倍程度になるかは、動画や音声それぞれの設定によるので一概にはいえませんが。
ExpressScribeのユーザーサポートに質問したところ、動画を軽快に扱えるかどうかは、PCの性能に左右される、再生ソフトの性能とは直接関係しない。とのことです。
というわけで、2015年の私が考えた、音声起こし用再生ソフトの5条件はこれで全部です。
1)ちょっと戻りができる
2)フットスイッチが使える
3)音声のタイムをコピーできる
4)「mp3、wma、wav」以外の音声ファイルを再生できる
5)動画ファイルを再生できる
のろのろ連載しているうちに年が明けて、それどころか、もう1年の4分の1が終わろうとしています…。
1~3を満たす再生ソフトはOkoshiyasu2はじめいくつかあるのですが、1~5まで満たすものは限定されて、ExpressScribeのプロ版ぐらいしか思いつきません。
それで、年末休みに、自宅PCにもExpressScribeプロ版を入れました。今日WEBサイトを見たら49.99ドルの円換算という表示ですが、年末キャンペーンか何かだったようで、39.99ドルの円換算で買えました。