テープ起こし・音声起こしの総合情報サイトokoso | 今日も音声起こし中

今日も音声起こし中

おすすめソフトのブログ記事

私はブラウザにChrome(クローム)を使っています。

Chromeに、「crxMouse Chrome Gestures」を入れています。これはマウスジェスチャーのアドインです。

 

 

image1.jpg

 

 

これを入れておくと、Chromeで、右ボタンを押しながらマウスを→に動かすと「進む」、←に動かすと「戻る」。↓→とカギ形に動かすと、「タブを閉じる」になります。

マウスの動きはかなり大ざっぱでも検知してくれます。例えば「タブを閉じる」は、カギ形というほどかっちりした動きでなく、平仮名の「し」ぐらいで大丈夫。

 

いちいちブラウザ画面の上部へ移動して「戻る」「閉じる」などをクリックしなくて済むので、ネット検索がスピードアップします。

他にもいろいろな操作ができますが、私はこの3つの動きだけを使っています。

 

(廿)

音声起こしの仕事を始めて以来、スピーディーなタイピングの研究に熱中してきたのですが、このところ、長時間のタイピングがきつくなってしまいました。せっかく2万円もするキーボードを使い、単語登録は現在3801語もあるのに、宝の持ち腐れ状態になりつつあります。

チームのメンバーが起こしたデータを聞き直して仕上げる作業は、さほど体力がいりません。しかし、自分で起こすときはタイピングより音声認識を使うようになりました。

 

自動で音声を文字化できるようなクリアな音声はほとんど来ないので、自分で復唱して認識させるリスピーク方式です。

使ってみて思うのは、「しゃべるのは体力がいらない」ということです(笑)。

 

そんな仕事のレポートを、VoXTのサイトで連載開始しました。

使ってみると、リスピークで認識させるのは楽しいですし、意外にロマンチックです。

 

廿里美のリスピークコラム

https://voxt.jp/column/onseininsiki/okoso01/

本日アップされたのが第1回で、第5回まで続きます。

 

VoXTは、株式会社アドバンスト・メディアの音声認識クラウドサービスです。私は、同社の音声認識のソフトウエアAmiVoice SP2と並行して使っています。実のところ、現在はクラウドより単体のソフトウエアのほうを使う頻度が多く…その理由も今後の連載に登場します。ぜひ読んでくださいね。

昨日、株式会社アドバンスト・メディアの方々が、新サービス「Voxt」の説明に来てくださいました。

新サービスといっても、リリースされたのは昨年11月後半。私も案内メールは受け取ったのですが、師走の忙しさに取り紛れて試用できず、okosoでもご紹介していませんでした。

 

「VoXT(ボクスト)」は、音声認識によるクラウド型文字起こしサービスです。

VoXTのページ:

https://voxt.jp/

 

アドバンスト・メディア社のVoXTニュースリリースページ:

http://www.advanced-media.co.jp/newsrelease/newsrelease.cgi?detail=20138482174968

 

現在、記事をまとめ中です…というか、きのうの話を録音した音声に聞きふけってしまって、文章にまとめる作業が全然進みません。

 

だったら、その音声ファイルをVoXTのサーバーに送り、自動認識させればいいじゃないか。文字認識させたテキストをもとに記事を書けば、作業が速いはず

 

あー、うー、そうなんですが。

okoso編集部の来客用デスクは狭くて、3名が資料と飲み物を置き、ノートPCを1台広げると、ICレコーダーを置くスペースがありません。そのため、ちょっと離れた別のデスクにレコーダーを置きました。人間の耳で聞けばまったくクリアな録音で、一言一言が問題なく聞き取れます。ところが、この程度離れただけでも、音声認識の精度は落ちるのです。

 

録音された音声の文字認識は、わりと困難です。録音環境によって、認識の精度が左右されてしまいます。また、話者は音声認識させることを意識したしゃべり方をしていません。

 

そんな中で、録音音声を自動認識するVoXTというサービス。

「利用者の皆さまの意見をお聞きして、どんどん改良していきたいと思っています」ということで、アドバンスト・メディア側も、私の音声認識ソフトの使い方やテープ起こし作業について取材していました。双方向で取材です。他にも、記者とかライターなどいろんな方に話を聞いているとのことです。

 

きのうの音声を聞き直してみると、3人ともあれこれ困惑しつつ、ぼそぼそしゃべっています。しかし、その内容は結構エキサイティング。VoXTは、AmiVoice SP2と何が違うのか? クラウド型だとどう有利なのか? お楽しみに!

Express Scribeは、多くの音声ファイルと動画ファイルに対応しているテープ起こし用音声ソフトです。以前は英語版しかなくて敷居が高かったのですが、昨年日本語版ができ、日本語Webサイトもできました。

使ってみると結構便利。私がどう使っているかレポートします。

 

Express Scribeのインストール

NCH Software社のサイトからダウンロードします。

http://www.nch.com.au/scribe/jp/index.html

 

インストールするとき、他のソフトなどを一緒に入れるか尋ねる画面が出ます。不要なのでチェックマークをはずすと「終了」というボタンが出て、見放されるのかと勘違いしますが…。「終了」をクリックすると、インストールが完了します。

 

ところが、Windowsのスタートボタンから「すべてのプログラム」を見ると、見慣れないフォルダが新しく表示され、その中に見慣れないソフト名がいくつも出てきます。

これらはPCにインストールされてしまったわけではなく、単にソフト名が並んでいるだけという状態です。「すべてのプログラム」のフォルダ名の上で右クリックしたら「削除」があったので、余計なフォルダを削除しました。

(2017/6/20追記:インストール方法は現在多少変わったようです)

インストールされたExpress Scribeは直ちに起動し、「Welcome」というファイル名の音声が自動で再生されます(この音声ファイルは削除できます)。

 

Express2.jpg

 

再生や停止のボタンは大きくて分かりやすく、操作方法は一目で分かります。メニューから「ファイル」→「ファイルを読み込む」、あるいは単に音声ファイルをドラッグするだけでも音声はインポートできます。これでもう音声起こしに使えます。ただ、設定をちょっと変更するとより便利になります。

 

オプションの設定

◆自動巻き戻し秒数

「オプション」→「再生」をクリックします。停止したとき自動でちょっと巻き戻る機能は、このソフトでは「停止時の自動バックステップ」という名称です。初期設定はゼロになっています。

単位はミリ秒なので、2秒戻したいときは2000と入力します。

 

◆ホットキ

「オプション」→「ホットキー」をクリックします。「システムワイドホットキーを有効にする」にチェックが入っています。

 

 

Express3.jpg

 

 

システムワイドというのはこの場合、他のソフトのキー設定より優先すると解釈していいと思います。例えば、文字入力しているときにF8キーを押すと、カタカナが半角になります。ところが、Express Scribeを起動していると、F8で半角変換することができません。Express Scribeの初期設定ではF8が「早送り」に設定されていて、これが日本語変換システムに優先するためです。

初期設定を全部消して、F5で再生、F6で停止という2つを新たに設定しました。私はこの2つのキーを普段全く使わないからです。

Okoshiyasu2は1つのホットキーで再生・停止両方を行いますが、Express Scribeは再生と停止に同じキーを割り付けることができません。

 

◆ペダル

「オプション」→「ペダル」で、フットスイッチの設定ができます。「コントローラ設定ウィザード」をクリックすると、PCに接続しているフットスイッチが検出されます。フットスイッチの各ペダルに設定されているコマンドも検出されます。

私はオリンパスのフットスイッチRS27を使っているので、真ん中を踏むと再生・停止、左右が早送りと巻き戻し、オリンパスの音声ソフトを使うときと同様で設定されました。

(2014/06/30追記:現在、同ソフトでRS27は使えなくなっているとのことです)

(2015/10/29追記:同ソフトのプロ版(有料版)にすると、RS27が使えるとのことです)

(2017/6/20追記:無料版のExpressScribeでもオリンパスのフットスイッチ「RS27H」のほうなら、使えるそうです)

 

◆タイムカウンターの表示

「オプション」→「表示」で時間表示などの設定を変更できます。初期設定では、「時間フォーマット」がh:mm:ss.tとなっています。0.1秒まで表示する細かさは、通常の音声起こしではさほど必要ありません。1つの音声ファイルを数名で手分けして起こすことも多いので、時間表示の形式は音声ソフト共通にしたほうが便利です。

私はOkoshiyasu2に合わせて「hh:mm:ss」を選びました。ホットキーの設定に戻り、任意のキー(私はF11)を選んで「時間をコピー」を割り付けます。

文章内にタイムカウンターを記載する際は、「時間をコピー」キーの次に貼り付けのショートカットキー「Ctrl+V」となります。

 4月15日の「最新サービス・新製品情報」に、アドバンスト・メディアの議事録作成支援システムが納入60件を達成という記事を掲載しました。その記事内に「興味しんしんです」と書いたあと、考えました。「興味あるわー」というやじ馬的な態度に終わらず、音声認識技術についてしっかり取材した記事を書くべきではないかと。

 

 ICレコーダーなどに録音された音声を、自動で文字化するソフト。それがあれば仕事は劇的にラクに、速くなる。そのための情報を探してokosoにたどり着いてくださる方が多いからです。
 一方で、そんなソフトが普及したらテープ起こしをする者は仕事を失うのではという心配の声もよく聞きます。

 

 そこで、昨日アドバンスト・メディア社にお邪魔してきました。
 下の写真は、AmiVoiceの音声認識による文字化(が映し出された会議室のスクリーン)です。私がきのうの日経新聞の社説冒頭を読み上げたもので、「声の登録」や「マイクのトレーニング」不要、チャレンジ一発。かなりうまく文字化され、同音異義語が正しく処理され、句読点まで挿入されています。

amivoice3.jpg

 「し」という無駄な1文字があるのと、誤:日米欧等→正:日米欧と、という2カ所が誤認識です。といってもこれは誤認識というより、私が言いよどんだところ。実際にそう発音しているので、必ずしもソフトのせいではありません。

 

 普通のメディアだったら、この認識率に感服し、あとはシステムの概要や納入状況などを手際よく紹介して簡潔にまとめるところです。しかし、業界の人間としては「でも、これって××(←伏せ字。連載をお楽しみに!)だもの」と反射的に思います。
 そのとき、先方も「でも、これは××ですからね」とおっしゃったのです。
 オコシスト以外で、音声の文字化についてこれほど理解している方々にお会いしたのは初めてでした。

 

 同社の「議事録作成支援システム」は数百万円、PC用音声入力ソフト「AmiVoice Es 2008」は2万円弱、iPhone向け「音声認識メール」は105円。この途方もない価格差は何から来るのか。
 それは主に、音声認識の限界を補うための周到な対策の差でした。その説明は非常に納得のいくものだったので、この際okosoではドーンと、できるだけ詳細にご紹介します。音声認識技術の現状についてここまで詳しく書けるのは、テープ起こし・音声起こしの総合情報サイトであるokosoしかない!という意気込みで。

 

 AmiVoice Es 2008の試用版を頂戴いたしました。ありがとうございます。

amivoice1.jpg

 というわけで、音声認識に関する連載は来週からスタートです。