テープ起こし・音声起こしの総合情報サイトokoso | 上手な録音起こし方の基本

上手な録音起こし方の基本

音声認識の最近のブログ記事

話者の口元近くで録音すればその分認識率が上がる。そこで前回は、インタビューの録音に何らかのマイクを使うことを提案した。

それでも音声認識がうまくいくとは限らない理由が、あと2つある。スマホの音声入力が短時間で止まることと、私たち自身の話し方の問題だ。

 

スマホの音声入力はすぐ止まってしまう

実は、1時間の音声を連続して認識させることはできない。スマホの音声入力モードは、1分ほどで勝手に停止してしまうのだ。

認識が止まるたびに対応するのは、かなり面倒だ。それに、止まってばかりでは「ご飯を食べている間に自動認識をかけておく」といったことができない。

 

音声入力(音声認識)専用のソフトやサービスはどうだろう。AmiVoiceやドラゴンスピーチには、録音された音声を認識する機能がある。

 

ドラゴンスピーチで音声ファイルを自動認識させる手順:

音声ファイルから文字起こし

http://japan.nuance.com/dragonspeech/function.html#recorder

 

この手順には「※あらかじめ、録音機器からの文字起こし用のプロファイルを作成しておく必要があります」と記載されている。何だろう?

いずれ試してレポートしたい。

 

AmiVoiceで自動認識させるには、付属する別ソフト「書起しエディタ」を使用する。

ICレコーダーからの書起し

http://sp.advanced-media.co.jp/ic.html

 

「書起しエディタ」を試してみた。これはスマホではなくPCで使うソフトだ。こんな感じに認識される。

 

0323-2.jpg

 

 

「書起しエディタ」は、長い音声を連続して認識させることができる。とはいえ、マイクを使ってさえこの程度の認識率。これでは実務には使えない。

 

話し方次第でここまで認識される

実は、認識率が悪いのはソフトウエアのせいではない。話し方のせいだ。

同じ「書起しエディタ」で、ここまでばっちり認識させることだってできるのだ。句読点までほぼ正しく挿入されている。

 

0323-3.jpg

 

 

これも同じく私がしゃべって録音した音声だが、この音声では「音声認識されやすい話し方」に徹した。整然と読み上げる口調だ。

だから低い認識率はソフトウエアのせいではない。の、だが。

インタビューするとき、読み上げ調の話し方で質問するのは、不自然すぎる。まして、インタビューに答える側が読み上げ調で返事をしたら、その人の感情もパッションもさっぱり伝わらない。

 

みんながボイストレーニングを受ければ…?

音声認識の導入が比較的進んでいるのは、地方議会だ。

議会においては、議事のほとんどは、議員が質問原稿を読み上げ、首長や役所側が答弁原稿を読み上げるという形で進む。つまり読み上げ調なので、ナチュラルな会話より認識されやすいのだろう。

 

しかし、ナチュラルな会話の認識率をアップする方策も、あることはある。

相手が聞き取ってくれることを知っているから、私たちは普段軽く発音している。さほど息を使っていないし、唇の動かし方も曖昧だ。

 

普段から、息をしっかり使って(大声を出すこととは異なる)、唇を上下左右にはっきり動かして、話せばいい。

みんなが話し方を意識する習慣を身に着け、社会人は毎年ボイストレーニングを受ける。そういう状況であれば、相手とナチュラルに対話する音声でも、そこそこ認識されるかもしれない。

 

というわけで、インタビュー音声を自動音声認識させるための提案は、次のようになる。

1)マイクを使って録音する

2)話者が、しっかり、はっきり、しゃべる

 

(手動で文字起こしをしている身としても、この1と2は切実に希望しております…)

 

 

ライターのための音声認識入門(1)へ

ライターのための音声認識入門(2)へ

インタビュー音声をスピーカーから流し、それをスマホの音声認識に聞かせても、ほとんど認識されないことがある。

 

実は、前回の認識結果を得るために、私はスタンドマイクを使った。ICレコーダーにスタンドマイクを外付けして、録音した。マイクと口元の距離は10センチほどの近さだった。

 

IMG_20170331_133603.jpg

 

 

1メートルも距離があると自動認識されない

実はこのとき、レコーダーをもう1台、自分から1メートル離れた机の上に置いた。しかし、スマホのGoogle音声認識にそちらの音声を聞かせたところ、全く認識されなかった。

インタビューの録音はライターと取材対象者の間にレコーダーを置くので、10センチの距離は実現されないのが普通だ。遠いと、相手がかなり大きい声で明瞭に話してくれない限り、自動音声認識は難しい。

 

この事情を説明する図を、なつかしい小冊子から見つけた。『絵とき テープ起こしのテクニック』、1989年の藤村勝巳さんの本。

音は、壁やテーブルや天井に反響し、ばらばらに録音機材に届く。微妙に時差のある音がいくつも届くため、不鮮明になる

 

 

IMG_20170331_113040.jpgIMG_20170331_111143.jpg

 

 

人が起こすとき以上に「近くで録音」が必要

音声認識のソフトウエアは、人間のような「根性で聞き取る」ことをしてくれない。だから、近くで録音することは人が起こすとき以上に重要だ。近い音ほど大きく録音されるから、ばらばらに届く音を圧倒することができる。

自動音声認識を使いたいなら、話者の口元近くで録るべきだ

 

スタンドマイクや襟元に着けるピンマイクで、口元から10~15センチ程度だろう。

AmiVoiceを出している会社アドバンスト・メディアでは「口元から5センチ以内」を推奨している。ヘッドセットマイクなら、確実に「口元から5センチ以内」が実現できる。しかし、取材相手が、快くヘッドセットマイクを装着してくれるとは限らない。

 

ハンドマイクを推奨、それでもまだハードルはある

ハンドマイクを持ってもらうのはどうだろう。これは案外いい方法なのではないかと思う。座談会やパネルディスカッションでは、ハンドマイクがあると、お互いに渡しながら誰もがきちんと使う。

 

レコーダーをハンドマイクのように、手に持って発言してもらうという方法もある。

ただ、レコーダー本体を持つわけだから、うっかり録音ボタンに触って、気づかないうちに録音ストップにしてしまう危険がある。やはりマイクを外付けするほうが安心だ。

 

(いずれにしろ、ミキサーでもかませない限り、レコーダーにマイクは1個しか接続できない。取材相手にマイクを渡して、ライターのほうはマイク無しで話すべきだろう。相手の答えがうまく文字認識されている場合、ライターはそれを読めば自分の質問を容易に思い出せる)

 

しかし、近くで録音してもまだ音声認識されるとは限らない

そこにはあと2つ、事情がある。続きは次回

 

 

ライターのための音声認識入門(3)へ

ライターのための音声認識入門(1)へ

今日は自宅作業。自宅PCにインストールしたまま全然使ってなかった音声認識ソフト「ドラゴンスピーチ11J」を試しています。

 

ds1.png

 

起動すると、「プロファイルの作成」がスタートしました。

(「プロファイル」って、プロフィールとどう違うんだっけとネット検索。プロフィールはもともとフランス語で、英語ではプロファイルのようです)

プロファイルの設定とは、ユーザーである私の声やしゃべり方、私が使うマイクなどを登録する作業です。まず、言語は日本語、年齢グループは「22-54」を選択しました。年齢に「回答しない」という選択肢があってちょっと笑えます。

 

CAPT0048.jpgのサムネール画像

 

ところが、しゃべってみると「音のレベルが低すぎます」という警告!

ds2.png

このヘッドセットマイクは確かに安物ですが、長女がいつもスカイプ通話に使っていますから、全然認識されないほどではないはず…。端子を抜いて挿し直したら認識されました。単に挿し方が甘かったようです。

 

しかし、やっぱり安物の悲しさ、「マイクのチェック:とても悪い」という判定でした。今後は必要があればオフィスで使っているヘッドセットマイクを持ち帰ることにして、とりあえずこのヘッドセットマイクで初期作業を進めることにします。

 

CAPT0050.jpg

 

続いて、ドラゴンスピーチではおなじみの、トレーニングテキストを読むプロセス。

「声に出して読む(約4分)ことで、ご自分の話しかたに適応するようにドラゴンスピーチをトレーニングすることができます」だそうです。ユーザーである私の訓練ではなくて、ドラゴンスピーチ側が私のために訓練してくれるわけですね。

 

CAPT0051.jpg

 

 

以前使ったドラゴンスピーチのバージョンは「Dragon Naturally Speaking 2005」でしたから、8年前だったようです。このときはドラゴンスピーチの認識精度も低く、私のPCのスペックも低くて、音声認識ソフトってホントに使えないわねっという感想でした。なにしろ、ドラゴンスピーチを使うと他のソフトがフリーズしたり、ひどいときはPC自体がダウンして再起動という状態でしたから。

 

ただ、2005を使ったとき興味深いと思ったのは、このトレーニング作業でした。ドラゴンスピーチ側がユーザーのしゃべり方を知るためのプロセスですが、同時にユーザー側も、PCの前でマイクに向かってしゃべるという動作に初挑戦するわけです。

そして、画面に表示されるテキストが、音声認識についてのチュートリアルになっています。声を出して読むわけですから、説明内容がユーザーの頭に入ります。

CAPT0053.jpg

 

トレーニング作業は2005当時と同じような内容でした。「マイクのチェック:とても悪い」だったわりにはすいすい進んで、すぐ終わりました。

 

さて、めでたく初期作業が終わって、いよいよ普通に使ってみます。最近起こした音声を聞きながらちょっとだけリスピークしてみました。おおー、素晴らしい認識精度!!

(実際の仕事案件を起こしたので、残念ながら認識された内容をお見せできません)

 

これならAmiVoiceの使い始め当時よりいいんじゃないの?と思うけど、それもたぶん違いますね。私が音声認識に慣れ、音声認識されやすいしゃべり方が以前よりできるようになってきているせいも大きいのです。2つのソフトを同時に使い始めるのでなければ、正しい比較はできません。

 

これから、よく使う言葉を学習させるなどの機能を試して、またレポートしたいと思います。ただし。

「ドラゴンスピーチ11じゃなくて“11J”だったら、ATOKと連動できるんじゃないの?」と興味しんしんのATOKユーザーの皆様、申し訳ありません。私は現在、日本語変換システムはGoogle日本語入力を使っていて、ATOKの月300円契約を解除してしまったため、ATOKとの連動は試せないのです…。

6回にわたって、株式会社アドバンスト・メディアの樋爪さんから、AmiVoiceの使い方についてアドバイスをいただきました。いかがだったでしょうか。読者プレゼントも無事、当選者の方のお手元に届きました。

 

AmiVoiceは音響学習によってユーザーのしゃべり方を覚え、ユーザーはAmiVoiceに認識されやすいしゃべり方を体得していく。第2回でそう聞いたとき、ハリー・ポッターのようだなと、ふと思いました。

 

ハリー・ポッターの最終巻で、杖つくりのオリバンダー老人が「杖は魔法使いから、魔法使いは杖から学ぶのじゃ」と言っていました。他人の杖でも魔法はかけられるけれど、自分の杖を使ったとき魔法は最も強力に発動する。また、そういう関係になるように、杖とそれを所有する魔法使いはお互いに影響し合っていくという意味です。

 

「音声認識ソフトは、ソフトウエアがユーザーに依存しているような特殊な関係」と、樋爪さんはおっしゃっていました。

でも考えてみれば、それはMS IMEやATOKなど日本語変換システムのソフトウエアでも同じです。例えば「変換辞書を育てていくという意識を持つ」「変換の第1候補ができるだけ入れ替わらないように使う」ことが入力の効率アップにつながると、先輩オコシストの方がかつて教えてくれました。

音声入力ソフトも、認識されにくい言葉は違う言い回しで発話したりして、あの手この手で効率よく使えば役立ちます。ソフトの機能改善も続けられているようですし、今後に期待しつつ、まずは「ボイスをためてレベル上げ」からやってみましょう。

 

今年3月15日のアップデートで、AmiVoiceのマスター辞書に「標準(大)- 汎用音響モデル」が加わりました。樋爪さんによると、これが最も汎用的にいろいろなジャンルの音声を認識できるそうです。ただし、「標準(大)- 汎用音響モデル」はこれまでの音響学習データを引き継げないとのこと。

 

ami10.jpg

 

せっかく「標準(大)」をレベル12まで上げたんだけど…。でも、使い勝手がいいと聞いたからにはこれをメインのマスター辞書にして、またレベル1からボイスをためていくことにしました!

 

(追記:ここまで記事を書いたあと、「汎用音響モデル」の「ボイスをためてレベル上げ」を始めました。私がリスピーク特有のしゃべり方に慣れたせいもあって、今回は手際よく進んでいます。初日はスタートから1時間半足らずでレベル4までいきました。本日5月28日現在レベル26です)

 

第1回

第2回

第3回

第4回

第5回

第6回

株式会社アドバンスト・メディアへの取材、最終回です。ヘッドセットマイクなどの扱いについていろいろ伺います。

 

ヘッドセットマイクと外付けスピーカーの切り替えは?

 

廿:AmiVoiceに付属しているUSB接続のヘッドセットマイクを使ったあとは、外付けスピーカーから音が出ないんですけど、なぜなんでしょうか。ヘッドセットマイクを抜いてからPCを再起動すると、またスピーカーから音が出るんです。

 

樋爪:それは、うちのヘッドセットマイクが規定のデバイスになってしまうからだと思います。

コントロールパネルの「サウンド」→「再生」で…。この628 USBとあるのがうちのヘッドセットマイクです。緑色のチェックマークが付いていて、選択されている状態です。下に表示されているのが外付けスピーカー用の再生デバイスですね。こちらを選択して「規定値に設定」ボタンを押すと、またスピーカーから音が出るようになります。

 

ami4.jpg

 

 

普段のヘッドホンを使うには?

 

樋爪:うちのヘッドセットマイクとは別に、普段お使いのヘッドホンがあるわけですね。

 

廿:そうなんです。外付けスピーカーの端子にヘッドホンをつないで聞いています。普段はこのピンクの軽いタイプを使っていて、耳を完全に覆う重いタイプもたまに使っています。

 

 

pc2.jpg

 

左から、現在スピーカーにつないでいるインナーイヤーヘッドホン、AmiVoice SP2付属のヘッドセットマイク、オーディオテクニカの耳全体を覆うヘッドホン。

 

樋爪:でしたら、お使いのヘッドホンを優先して、マイクは卓上マイクをお使いいただくという手もあります。実は、このヘッドセットマイクを首にかけて使う方もいらっしゃるんですよ。ちょっと顔を動かすだけでマイクとの距離が変わってしまいますので、当社としてはおすすめできないんですけどね。

 

 

628.JPG

 

うちの娘がオフィスに来たとき写真を撮ってみました。服も黒くて分かりにくいですが、ヘッドセットを首にかけると、マイクの先がちょうど口元の位置に来ます。しかし、身動きすると認識率が悪くなり、たしかに「おすすめできない」という感じでした。

 

マイクのON/OFFをどう操作する?

 

私はAmiVoiceバーのマイクの絵をクリックして、マイクをずっとONにしたまま使っていますが、樋爪さんは違う使い方をされていました。右Shiftキーを押しているときがマイクON、離すとOFFというものです。

 

 

ami8.jpg

AmiVoiceバー。マイクの絵が赤く表示されていて、マイクONの状態。

 

樋爪:マイクのON/OFFは右Shiftキー以外にも割り当てられます。「押しているときがON」以外に「押すごとにONとOFFが切り替わる」設定もできます。

 

 

ami7.jpg

設定画面「録音ボタン」で「制御キー」や「ボタン動作」を変更できる。

 

廿:マイクをずっとONにしておくと、「あ、違った」というような独り言まで文字化されてしまって、不便なのは確かなんですよね…。

でも、テープ起こしの仕事では自分が考えた内容を音声入力するわけではなくて、他人がしゃべった音声の録音ファイルを聞きながら、それをリスピークするわけです。つまり、録音ファイルのほうもAmiVoiceとは別のソフトで、細かく再生・停止を繰り返している状態なんです。

両方のソフトを細かく再生・停止するより、AmiVoiceのほうはずっとマイクONにしておくほうが、テープ起こしの場合は楽かもしれませんね。

 

第6回のまとめ

・音が出ないときは、コントロールパネルの「サウンド」を確認。

・普段のヘッドホンを使いたいときは、卓上マイクなども検討する。

・マイクのON/OFF方法は複数ある。

 

次回は「取材を終えて」です。

 

第1回

第2回

第3回

第4回

第5回

第7回

前回に引き続き、「音としては正しく聞き取れているのに文字化が正しくなかった」「しかも修正できなかった」状態について、株式会社アドバンスト・メディアにお聞きします。

レベル10を超すと、滑舌がいいとは言えない私のしゃべりでも、本当によく認識されます。これだけ聞き取れるなら、漢字の修正も良い手段があるのではと思ったのですが…。今回は、音声認識というものの仕組みの不思議さに直面する回になりました。

 

③「アウト(正しくは「会うと」)」…音として正しく聞き取れているのに「会う」を選ぶと「と」が消えてしまうのはなぜ? 候補に「会うと」はなぜない?

 

ami4-3.jpg

 

 

樋爪:外来語「アウト」は1つの言葉として認識されていますが、それ以外は「あう」「と」に分割されて認識されている状態です。「会うと」「合うと」などは、AmiVoice内部では「会う」「と」、「合う」「と」という2つに分けて認識されます。

 

廿:だから「合う」「会う」などが候補に出てくるんですね。じゃあ「と」は?

 

樋爪:AmiVoiceの候補選択は、1つの言葉を別の1つの言葉に置き換えて選択する形になっていまして…。1つの言葉を2つの言葉に分けて選択するようには、なっていないのです。

 

廿:えっ!「アウト」→「会う」で1対1の対応だから、2つ目の「と」は消えてしまう?

 

樋爪:はい、現在のAmiVoiceの仕組みではそうなります…。改善していきたいと思っています。

 

現状は、もしこういう状態になったら「私の発音が悪いんだろうか」「どうやったらうまく修正できるんだろうか」などと悩まずに、さっさと消してタイピングし直したほうが速いということのようです。あるいは「あなたにあうと」など、「会うと」になりやすそうな言葉を付けて発話し直すという手もありそうです。

 

 

④動詞「わかる」は常に「分かる」という表記を使いたい。

最初の2センテンスで「わかって」「わかり」をそれぞれ候補から「分かって」「分かり」に選択し直したが、漢字にしたいという選択がそれ以降の認識結果に反映されない…。

3センテンス目も「わかって」はひらがなだし、しかも区切りが正しくない(「わ」「かって」)ので修正できない。4センテンス目は区切りが正しいが「分からない」が候補にない。

 

ami4-4.jpg

 

 

樋爪:AmiVoiceの候補選択学習は、以前に行った候補選択での変更内容を記憶して、以降の音声認識結果で同じパターンの結果に対して、記憶している変更を当てはめます。

 

廿:えっと…。つまり、「わかって」→「分かって」に直したあとは、次に「わかって」が出てくれば「分かって」になるけれども、「わからない」は別の言葉という扱いになるわけですか。

 

樋爪:「わかって」と「わからない」は別の言葉という扱いになります。それから、「わかって」同士であっても、「その前の2単語を含めて同じパターン」とみなされた場合に、前回に選択したものが選ばれるようになっています。

 

廿:つまり、AmiVoiceは品詞という概念は持ってないわけですか。「わかるは動詞だから語尾が活用する。ユーザーは分かるという表記を使いたいらしいから、活用形すべてに適用しよう」という発想は持っていない?

 

樋爪:そうです、あくまで前後の関係から候補を選ぶようになっています。ただ、品詞という概念を入れようという議論は社内で出ています。

それに「わかる」というのはたくさんの漢字がありますよね。「分かる」の他にも「判る」「解る」「解かる」「分る」…、もちろんひらがなの「わかる」もあります。そのすべての表記に対して、すべての活用形を「判らない」「判ります」「判れば」…と入れていくと、動作が重くなってしまうのです。

 

AmiVoiceの新製品発表会に過去数回行ったことがあります。「サクサク動く」という価値は、いつも強調されていました。AmiVoiceは「動作が重くなる」ことをできるだけ避けるスタンスで開発されているようです。

実際、マイクに向かってしゃべった途端に文字が画面に並ぶというのは、気持ちがいいものです。7年ぐらい前に別の音声認識ソフトを使ったときは、しゃべってから文字が出てくるまでにタイムラグがあって、スムーズにしゃべれませんでした。そのソフトのせいか、当時私のPCのスペックが低かったせいかは分かりませんが。

 

廿:とはいえ、私の仕事では「解かる」や「判る」などの表記を使う必要はなく、「分かる」のみでいいんです。じゃあ自分で「分かる」を未然形から順に全部単語登録しようかな。それでも「わ」「からない」などの区切りになってしまいますか?

 

樋爪:単語登録が優先されますから、「分からない」になると思います。

 

あるいは、もっとボイスがたまってレベルが上がっていけば、やがて「分かる」が普通に出るようになっていくのか。「テキスト学習」させることが効果的なのか。このあたりは今後いろいろやってみて確認したいと思います。

 

第5回のまとめ

・学校で習った日本語文法の概念と、AmiVoice内部の認識のアルゴリズムはかなり違う。

・今後の機能アップに期待しつつ、今のところはユーザー側が方法を探そう。

 

第1回

第2回

第3回

第4回

第6回

第7回

今回と次回は、音声認識が間違っていた場合の直し方について質問してみます。

AmiVoice SP2で「音としては正しく聞き取れているのに文字化が正しくなかった」「しかも修正できなかった」状態を事前に4つ収集し、株式会社アドバンスト・メディアの樋爪さんに見ていただきました。

 

①音としては正しく聞き取れているのに「効いて」が候補にない。

 

ami4-1.jpg

 

樋爪:AmiVoiceは、個々の単語を認識しているわけではなく「前後の文脈」から文字化しています。ですから本当は、「効いて」を出したい場合は「効いて」になりそうな言葉をその前後に付けていただくといいんですね。

 

廿:「薬が効いて」と発話する、というようなことですね。

 

タイピングして日本語変換システムで変換する場合も、前後の文脈がないと変換されにくいことはよくあります。

例えば「し」と読む漢字はたくさんあって、1字だけでは必要な変換候補がなかなか出てきません。「詩」を出したいときは「しいか」とタイピングして「詩歌」を出し、「歌」を消すというような、熟語1字消しのテクニックがあります。そういうちょっと回り道だけど結果的には速い操作を、音声入力でも行えばいいわけです。

 

樋爪:でも、「きいて」なら「聞いて」「きいて」の他に「効いて」「聴いて」などが候補に並ぶのが美しい姿だと、実のところ私も思います。この不具合は、開発部門が現在修正中です。

 

廿:じゃあ、今後のバージョンに期待しています。現時点では…?

 

樋爪:現時点では、出そうな言葉を付けて発話するか、キーボードから入力して直していただくしかありません。

ただ、お客さまから「キーボードで直したらAmiVoice側が学習しない、そうするとまた同じ認識が繰り返される」という声をいただきまして、AmiVoice SP2には「テキスト学習」という機能を搭載しました。過去のWordファイルを読み込ませることで、AmiVoiceが文脈を学習します。他にExcelファイル、PDFファイル、テキストファイルなども読み込ませることができます。

 

テキスト学習させる方法:

AmiVoiceバーの上で右クリックして「テキスト学習ウィザード」を選択、あとはウィザードに沿って進む。学習させるファイルは、複数ファイルをまとめて選択できる。

 

 

②「後手維持(正しくは「ご提示」)」…音として正しく聞き取れているが、単語の区切りが違うために認識されない。

 

ami4-2.jpg

 

 

樋爪:私のAmiVoiceでやってみたら、「ご提示」になりました。

 

廿:ううっ…私って発音悪いのかな。

 

樋爪:いえいえ、たまたま区切りが違って認識されてしまうことはあります。AmiVoiceには「Shift+←、Shift+→で区切りを変更」というような機能はありません。単語登録していただくのもひとつの解決方法ですが、「ご××」だと、際限なく単語登録することになってしまいますからね…。

 

廿:「ご了解」「ご確認」「ご検討」などと何でも「ご登録」するのは「ご面倒」ですね。審議会などの音声だと、お役人様が答弁にやたら「ご」や「お」を付けるんです。

 

樋爪:そうしますと、過去の審議会起こしのファイルを、先ほどの「テキスト学習」でまとめて読み込ませるのが一番いいかもしれません。「テキスト学習」によって、文脈と同時に単語も学習されます。

 

廿:ジャンルが違うファイルをまとめて読み込ませたら、辞書が混乱してしまいますか? 例えば医薬系とビジネス系を学習させたら…。

 

樋爪:できれば、ユーザーを複数作って辞書を分けていただいたほうがいいと思います。分けるときは、これまでの音響学習データは引き継ぐことができます。

 

 

第4回のまとめ

・修正したい候補が出てこない場合は、文脈を考慮して発話し直すか、キーボードから修正する。

・「テキスト学習」機能で、文脈や単語を学習させることができる。

 

 

第1回

第2回

第3回

第5回

第6回

第7回

AmiVoice SP2でマイクに向かってしゃべると、自動的にAmiVoiceエディターというウィンドウが起動して、認識された文字が並んでいきます。今回は、入力画面をめぐって株式会社アドバンスト・メディアにお話を伺います。

 

AmiVoiceエディターの初期設定は、フォントがMSゴシックで、文字サイズは24ポイント。行間が狭くて読みにくい感じがします。フォントの種類やフォントサイズは変更できますが、行間を空ける設定はありません。

AmiVoiceエディター部分の書式があまり変更できないのは、「文字がたまったら転送」という使い方が予定されているせいかなと思います。「転送」をクリックすれば、そこまでに認識された文字は例えばWordなどに貼り付けられます。

 

ami3-1.jpg

句読点を入れて400字。音声1分間でこのぐらいしゃべる人もいるから、テープ起こしの仕事で扱う文字数は相当に多い(タイピングで起こした講演データを貼りつけたもの)。

 

 

廿:できたら、AmiVoiceエディターに行間を空ける設定がほしいのですが…。

 

樋爪:AmiVoiceエディターは、単に認識結果を表示するボックスという位置付けです。転送後のソフト上で書式等を整えていただければと、私どもは思っています。

 

廿:じゃあ直接Wordに入力したいのですが、できますか?

 

樋爪:できます。AmiVoice SP2の入力モードを「直接入力」に変更すれば、AmiVoiceエディターを起動させることなく、Wordに直接入力することができます。

 

ami3-2.jpg

直接入力モードへの切り替え方法。設定画面「入力モード」で「直接入力」を選択。

 

廿:Word以外のソフトにも直接入力できますか?

 

樋爪:はい。各ソフトに対応できるよう、転送方法は5種類用意しています。設定画面「オプション」→「転送方法」で転送方法を選択できますから、直接入力できないソフトはほとんどありません。

 

廿:ブラウザ上での入力、例えばGmailでメールを書いたりもできますか?

 

樋爪:可能です。ブラウザにInternet Explorerを使っている場合などは、ちょっと設定を変更する必要がありますが。

 

ami2-2.jpg

 

Internet Explorerのインターネットオプション→「セキュリティ」で「保護モードを有効にする」のチェックをはずすと、Internet ExplorerでGmailに直接入力できる。(ブラウザがChromeの場合、このチェックをはずさなくてもGmailに入力できた)

 

樋爪:慣れると、AmiVoiceエディターを起動させるより、直接入力のほうが効率的です。さらに使い込んで誤認識が減ったら、直接入力の場合は「認識結果を編集しない」設定にすると、スピードアップできますよ。

設定画面「入力モード」→「直接入力」で「認識結果の編集」を「編集しない」にします。ちょっとしゃべってみてください。

 

廿:いきなりしゃべれと言われると困ります。認識結果の編集を変更しました。

 

これは面白い。Word上に、「1なりしゃべれと言われると困ります。認識結果の編集を変更しました。」という文字が、しゃべった途端に並びました。最初から漢字混じりに変換された状態で確定されているので、候補から選択する手間もかかりません。

「いきなり」は認識されず「1なり」になっていますが、この程度ならキーボードで直すのも簡単です。

 

 

第3回のまとめ

・AmiVoiceエディターは認識結果を表示するだけの役割。転送後のソフトウエアで書式設定する。

・慣れたら直接入力モードで作業するほうが効率的。

・使い込んだら「認識結果を編集しない」設定にすると、よりスピードアップできる。

 

 

追記。


このところ、「AmiVoiceで復唱しながらテープ起こし」にチャレンジしていたのですが、5/10(金)にAmiVoiceが立ち上がらなくなりました。昨日AmiVoiceのサイトを見に行ったら、アップデートモジュールが公開されていました。

「2013/05/10以降、パソコンの設定によってはAmiVoice SP2が起動しなくなる不具合を修正しました」だそうです。ソフトウエア自体が起動しないなんて、不具合すぎる…。ともあれ、迅速に修正ファイルが発表されたことは確認できましたし、アップデートしたら問題なく起動しました。


きっとこういう場合、ユーザー登録していればメールでお知らせが届くのでしょう。あわててパスワード等を探しました。さっそく登録します!

 

第1回

第2回

第4回

第5回

第6回

第7回

AmiVoiceを使い、リスピークによってテープ起こしをする。どんなふうにしゃべれば音声認識されやすいのか、引き続き株式会社アドバンスト・メディアの樋爪さんにお話を伺います。

 

廿:じゃあ、認識率を高めるには、ボイスをためてレベルを上げるべく、ひたすら使い続けるのみということでしょうか。

 

樋爪:継続的にお使いいただくことはもちろんですが、認識率を高めるコツは他に、大きく分けて3つあります。

まず、ヘッドセットマイクを正しく使うこと。マイクの位置は口元から5センチ以内を推奨しています。AmiVoice SP2の付属マイクは指向性があるので、口元側からの音声を認識します。ですから、周りが騒がしくてもご本人の声を優先して認識します。

 

樋爪さんは、家電量販店でAmiVoiceの実演をされることもあるそうです。あのにぎやかな店頭でもちゃんと認識されるとのこと、さすが指向性マイクです。

 

樋爪:しゃべり方は、大げさな抑揚を付けずに棒読みすることがポイントです。アナウンサーがニュース原稿を読み上げるような淡々とした調子が、よく認識されます。

それから、前後の文脈で認識させているので、ひとまとめに長くしゃべるほうが認識されます。例えばマイクに向かって「に」だけ言っても、ひらがなの「に」、数字の「2」、漢字の「似」「荷」「煮」などのどれか判断できません。

何をしゃべっていいか迷って、まずは「あいうえお、かきくけこ」などと言ってみる方もいらっしゃいます。でも、これは自然な文脈での話し言葉ではありませんから、認識されにくいのです。

また、ゆっくりしゃべりすぎたり、1音ずつ区切ったりすると認識率が落ちます。「ぼいすってなんのたんいですか」というふうに、ひとまとめにすっと言うほうが認識されます。これらを守っていただくと、認識率は結構上がります。

 

廿:そういえばAmiVoiceって、事前に声の登録はしなくていいんですね。

 

樋爪:ええ、不要です。特定話者用のソフトウエアだと、事前に声を登録して、決まった文章を読み上げるなどの作業をする必要がありますが、私どものソフトウエアは不特定話者対応なので、インストールしたらすぐ使えます

ただ、やはり人によって話し方のくせはありますから、ユーザー様が使っていく間にソフト側は音響学習を続けていきます。

それと同時に、実はご本人も認識されやすい話し方を学習していかれます。「こういうしゃべり方をすると認識されやすいのか」と、お使いになる方が自然にコツを身に着けていかれるわけです。

 

最初は「そんなこと言ってないでしょ」と言いたくなる精度だったのが、使っていくうちに認識されるようになってきました。AmiVoiceが私のしゃべり方を覚えてきたのと同時に、私のほうも認識されやすいしゃべり方を徐々に体得してきたからでしょう。ソフトとユーザーが一緒に育っていくわけですね。

 

第2回のまとめ

・認識精度を上げるには、「マイクを口元から5センチ以内」にして、「あまり抑揚を付けず淡々と」「ひとまとめに長くしゃべる」。

・ソフトは音響学習でユーザーのしゃべり方を覚え、ユーザーはソフトに認識されやすいしゃべり方を覚えることで、認識精度が上がる。

 

 

第1回

第3回

第4回

第5回

第6回

第7回

このところ、株式会社アドバンスト・メディアの音声認識ソフト「AmiVoice SP2」を使ってみています。リスピークに不慣れだったせいもあり、最初は微妙な音声認識精度でした…。

ところが、使っていくうちボイスが蓄積されてレベルが上がり、かなり正確に認識されるようになりました。

でもまだ使い方の分からないところがあるので、アドバンスト・メディアのシニアセールスマネージャー樋爪和夫さんにアドバイスしていただきました。

 

※リスピークとは:

テープ起こしに音声認識ソフトを使う場合は、録音された音声を再生して聞きながら、マイクに向かって復唱することで認識させることが一般的です。この作業をリスピークあるいはリスピーキングといいます。

この連載では、「音声起こしの作業をリスピークで行う」という用途に絞って、音声認識ソフトの使い方を探ります。

 

「ボイスがたまってレベルが上がる」というのは、ゲームで言う「経験値がたまってレベルが上がる」というような概念かなと思います。まずここから質問してみました。

 

ami1-1.jpg

 

私の2013/4/22現在のボイスとレベル。今レベル12で、13に上がるにはあと16914ボイスであるらしい。

 

廿:「ボイス」って何の単位ですか?

 

樋爪:AmiVoice SP2内部でユーザー様の音声の特徴を自動的に学習している、学習量の単位です。私たちはこれを「音響学習」と名付けています。ゲームで言う「経験値がたまってレベルが上がる」という概念で合っています。

ゲームであれば、レベルが上がればより強いモンスターに勝てるようになりますが、AmiVoice SP2では認識しにくい発話を認識できるようになります。

 

廿:「1音が1ボイス」とか「1単語が1ボイス」というわけではなさそうですね。AmiVoiceを1時間使うと何ボイスという決め方とも違うんですか?

 

樋爪:音響学習は、しゃべった音声全部を学習しているわけではありません。「認識が正解に近い」と思われるものを、AmiVoiceが内部的に抽出して蓄積するという仕組みです。ですから、1時間使った中でどの程度の量が学習されるかは、しゃべり方や周囲の雑音などによってさまざまです。

 

廿:「×レベルあれば平易なビジネスメールの口述がほぼ認識される」「×レベルあれば平易な講演などのリスピークがほぼ認識される」などのレベルの目安はありますか?

 

樋爪さん:レベルの目安は特にありません。でも、レベル10あればかなり認識されると思います。レベル10というのは、一気にやれば1日でもたまる量ではあるのですが、一般的には1日20~30分使って7~10日ぐらいでたまります。

 

廿:レベル10ですか、道理で…。私のレベルは今12。最初に比べてずいぶん認識率がアップしたなと感じます。

 

「AmiVoiceはレベル制のゲーム」とイメージしてみると、使い方が見えてきます。

やり始めたばかりなのにそのゲームの文句を言えば、「レベル1じゃ何も分からないよ、もっと続けてごらん」と周囲に言われるでしょう。経験値をためてレベルアップすれば、ゲーム内で使えるワザもアイテムも増え、その間にゲームについての自分の知識も増えていきます。

音声認識ソフトも、レベルアップを目指しつつ取り組むといいのでしょう。

 

第1回のまとめ

・認識精度を上げるには、音響学習させることでボイスをためてレベルを上げる。

・レベル10を超すとかなり認識されるようになる。

 

プレゼントのお知らせ

株式会社アドバンスト・メディアより、「AmiVoice SP2(USBマイク付)」をご提供いただきました。アンケートにお答えくださった方の中から1名の方にプレゼントします。

 

ami9.jpg

 

 

音声認識ソフトアンケート

 

音声認識ソフトを現在使われていますか。

過去使われたことがありますか。

用途や使用感を(できるだけソフト名やバージョンを添えて)教えてください。

「音声認識ソフトのこういうところが不安でまだ購入する気になれない」といったお話もウェルカムです。PCでの使用だけでなく「スマートフォンで音声認識アプリをこんなふうに使っている」といったお話も。

お寄せいただいた情報は、今後のokoso記事の参考にさせていただきます。

 

「AmiVoice SP2(USBマイク付)」をご希望の方は、「読者プレゼント希望」とご記載ください。当選者の方には後日、メールで発送先のご住所を伺わせていただきます。

 

アンケートのご回答はメールでお寄せください。

 

メール宛先:(画像になっています。お手数ですが入力してください)

logo111.gif

 

 

アンケート締め切り:5月16日(木)←締め切りました

 

 

第2回

第3回

第4回

第5回

第6回

第7回