音声認識の知識

2021.12.27

リアルタイム字幕ってこんな感じ(1)

音声認識を使ってリアルタイム字幕を表示する場合、当然誤変換が出る。それを直す仕事。
実際にはもうちょっと仕事範囲は広いが、取りあえず「リアルタイム字幕編集」と呼ぶことにする。

◆リアルタイム字幕の編集は、ここを直す


リアルタイム字幕の編集(修正)は、ここを直す。UDトークの例。

 

Zoomほかのリモート会議にすっかり慣れ、画面共有や音声の共有にも慣れたのに。
現場の字幕と自分のパソコンに同じ文字があって、自分が直した文字が現場のスクリーンに反映されるのは、なぜか不思議な気分。

リアルタイム字幕アプリとしてUDトークを使う場合、まずスマホやタブレットで音声認識させて→「UDトーク for Windows」か「UDトーク for Mac」で編集する。PCで直接、音声認識させるわけではない。
(スマホネイティブ世代なら、スマホ上でそのまま編集するほうが速いかも?)

◆リアルタイム字幕は「作業がリアルタイム」


収録済みのイベント動画やテレビ番組は、準備した字幕を付けてから公開できる。だから字幕をトークにぴったり合わせられる。
それに対して、リアルタイム字幕は「今、作業して文字を付けてます!」という状態。「作業がリアルタイム」であり、「トークのリアルタイム」ではない(文字がちょっと遅れる)。

例えば料理番組の字幕なら、「ここでじゃがいもを入れます」という文字が出たときに画面ではすでに調味料も入っている、程度のタイミング。

人がしゃべる。
音声認識結果はトークよりわずかに遅れて出る。
その文字を見て、誤認識を直す。
なので、リアルタイム字幕編集者は「8秒ぐらい前のトーク」を直すことになる。
流れていく音声の「ちょっと前を聞く」にはEchochopsというアプリを使う。これが現在のところiOSのみ対応のアプリなので、リアルタイム字幕編集には事実上iOSの端末が必須となる。

画像はEchochopsでディレイを「8秒」にした設定。

 

◆イベントが終われば作業は完了


文字起こしは録音された音声を文字化するから、都合のいい時間帯に作業でき、分からない箇所は何度も聞き返せる。
これに対して、リアルタイム字幕は、イベントなどの開催時間に作業する。分からない箇所があっても一発勝負!

実際、聞き取れない箇所も、まれにある。
(話者がつっかえて意味不明な発音だと、入りそうな言葉さえ推測できないことがある)
聴取不能マークを入力して、先へ進む。

ただ、ベテランのリアルタイム字幕編集者は聴取不能箇所があった場合、Echochopsで再生箇所をさかのぼって該当箇所をもう一度聞き、誤認識を修正してから、電光石火で元のトーク位置へ戻るというワザを持っている。あれはホントにすごい。

文字起こしと両方やっている人の話では、
「文字起こしは、音声60分ぶんの作業に何時間かかるか、やってみないと分からない。
リアルタイム字幕は、準備はあるにしてもイベント本体は60分なら60分で終わるから、予定しやすい」とのこと。