テープ起こし・音声起こしの総合情報サイトokoso | 今日も音声起こし中

今日も音声起こし中

おすすめソフトのブログ記事

私はブラウザにChrome(クローム)を使っています。

Chromeに、「crxMouse Chrome Gestures」を入れています。これはマウスジェスチャーのアドインです。

 

 

image1.jpg

 

 

これを入れておくと、Chromeで、右ボタンを押しながらマウスを→に動かすと「進む」、←に動かすと「戻る」。↓→とカギ形に動かすと、「タブを閉じる」になります。

マウスの動きはかなり大ざっぱでも検知してくれます。例えば「タブを閉じる」は、カギ形というほどかっちりした動きでなく、平仮名の「し」ぐらいで大丈夫。

 

いちいちブラウザ画面の上部へ移動して「戻る」「閉じる」などをクリックしなくて済むので、ネット検索がスピードアップします。

他にもいろいろな操作ができますが、私はこの3つの動きだけを使っています。

 

(廿)

音声起こしの仕事を始めて以来、スピーディーなタイピングの研究に熱中してきたのですが、このところ、長時間のタイピングがきつくなってしまいました。せっかく2万円もするキーボードを使い、単語登録は現在3801語もあるのに、宝の持ち腐れ状態になりつつあります。

チームのメンバーが起こしたデータを聞き直して仕上げる作業は、さほど体力がいりません。しかし、自分で起こすときはタイピングより音声認識を使うようになりました。

 

自動で音声を文字化できるようなクリアな音声はほとんど来ないので、自分で復唱して認識させるリスピーク方式です。

使ってみて思うのは、「しゃべるのは体力がいらない」ということです(笑)。

 

そんな仕事のレポートを、VoXTのサイトで連載開始しました。

使ってみると、リスピークで認識させるのは楽しいですし、意外にロマンチックです。

 

廿里美のリスピークコラム

https://voxt.jp/column/onseininsiki/okoso01/

本日アップされたのが第1回で、第5回まで続きます。

 

VoXTは、株式会社アドバンスト・メディアの音声認識クラウドサービスです。私は、同社の音声認識のソフトウエアAmiVoice SP2と並行して使っています。実のところ、現在はクラウドより単体のソフトウエアのほうを使う頻度が多く…その理由も今後の連載に登場します。ぜひ読んでくださいね。

昨日、株式会社アドバンスト・メディアの方々が、新サービス「Voxt」の説明に来てくださいました。

新サービスといっても、リリースされたのは昨年11月後半。私も案内メールは受け取ったのですが、師走の忙しさに取り紛れて試用できず、okosoでもご紹介していませんでした。

 

「VoXT(ボクスト)」は、音声認識によるクラウド型文字起こしサービスです。

VoXTのページ:

https://voxt.jp/

 

アドバンスト・メディア社のVoXTニュースリリースページ:

http://www.advanced-media.co.jp/newsrelease/newsrelease.cgi?detail=20138482174968

 

現在、記事をまとめ中です…というか、きのうの話を録音した音声に聞きふけってしまって、文章にまとめる作業が全然進みません。

 

だったら、その音声ファイルをVoXTのサーバーに送り、自動認識させればいいじゃないか。文字認識させたテキストをもとに記事を書けば、作業が速いはず

 

あー、うー、そうなんですが。

okoso編集部の来客用デスクは狭くて、3名が資料と飲み物を置き、ノートPCを1台広げると、ICレコーダーを置くスペースがありません。そのため、ちょっと離れた別のデスクにレコーダーを置きました。人間の耳で聞けばまったくクリアな録音で、一言一言が問題なく聞き取れます。ところが、この程度離れただけでも、音声認識の精度は落ちるのです。

 

録音された音声の文字認識は、わりと困難です。録音環境によって、認識の精度が左右されてしまいます。また、話者は音声認識させることを意識したしゃべり方をしていません。

 

そんな中で、録音音声を自動認識するVoXTというサービス。

「利用者の皆さまの意見をお聞きして、どんどん改良していきたいと思っています」ということで、アドバンスト・メディア側も、私の音声認識ソフトの使い方やテープ起こし作業について取材していました。双方向で取材です。他にも、記者とかライターなどいろんな方に話を聞いているとのことです。

 

きのうの音声を聞き直してみると、3人ともあれこれ困惑しつつ、ぼそぼそしゃべっています。しかし、その内容は結構エキサイティング。VoXTは、AmiVoice SP2と何が違うのか? クラウド型だとどう有利なのか? お楽しみに!

Express Scribeは、多くの音声ファイルと動画ファイルに対応しているテープ起こし用音声ソフトです。以前は英語版しかなくて敷居が高かったのですが、昨年日本語版ができ、日本語Webサイトもできました。

使ってみると結構便利。私がどう使っているかレポートします。

 

Express Scribeのインストール

NCH Software社のサイトからダウンロードします。

http://www.nch.com.au/scribe/jp/index.html

 

インストールするとき、他のソフトなどを一緒に入れるか尋ねる画面が出ます。不要なのでチェックマークをはずすと「終了」というボタンが出て、見放されるのかと勘違いしますが…。「終了」をクリックすると、インストールが完了します。

 

ところが、Windowsのスタートボタンから「すべてのプログラム」を見ると、見慣れないフォルダが新しく表示され、その中に見慣れないソフト名がいくつも出てきます。

これらはPCにインストールされてしまったわけではなく、単にソフト名が並んでいるだけという状態です。「すべてのプログラム」のフォルダ名の上で右クリックしたら「削除」があったので、余計なフォルダを削除しました。

 

インストールされたExpress Scribeは直ちに起動し、「Welcome」というファイル名の音声が自動で再生されます(この音声ファイルは削除できます)。

 

Express2.jpg

 

再生や停止のボタンは大きくて分かりやすく、操作方法は一目で分かります。メニューから「ファイル」→「ファイルを読み込む」、あるいは単に音声ファイルをドラッグするだけでも音声はインポートできます。これでもう音声起こしに使えます。ただ、設定をちょっと変更するとより便利になります。

 

オプションの設定

◆自動巻き戻し秒数

「オプション」→「再生」をクリックします。停止したとき自動でちょっと巻き戻る機能は、このソフトでは「停止時の自動バックステップ」という名称です。初期設定はゼロになっています。

単位はミリ秒なので、2秒戻したいときは2000と入力します。

 

◆ホットキ

「オプション」→「ホットキー」をクリックします。「システムワイドホットキーを有効にする」にチェックが入っています。

 

 

Express3.jpg

 

 

システムワイドというのはこの場合、他のソフトのキー設定より優先すると解釈していいと思います。例えば、文字入力しているときにF8キーを押すと、カタカナが半角になります。ところが、Express Scribeを起動していると、F8で半角変換することができません。Express Scribeの初期設定ではF8が「早送り」に設定されていて、これが日本語変換システムに優先するためです。

初期設定を全部消して、F5で再生、F6で停止という2つを新たに設定しました。私はこの2つのキーを普段全く使わないからです。

Okoshiyasu2は1つのホットキーで再生・停止両方を行いますが、Express Scribeは再生と停止に同じキーを割り付けることができません。

 

◆ペダル

「オプション」→「ペダル」で、フットスイッチの設定ができます。「コントローラ設定ウィザード」をクリックすると、PCに接続しているフットスイッチが検出されます。フットスイッチの各ペダルに設定されているコマンドも検出されます。

私はオリンパスのフットスイッチRS27を使っているので、真ん中を踏むと再生・停止、左右が早送りと巻き戻し、オリンパスの音声ソフトを使うときと同様で設定されました。

(2014/06/30追記:現在、同ソフトでRS27は使えなくなっているとのことです)

(2015/10/29追記:同ソフトのプロ版(有料版)にすると、RS27が使えるとのことです)

 

◆タイムカウンターの表示

「オプション」→「表示」で時間表示などの設定を変更できます。初期設定では、「時間フォーマット」がh:mm:ss.tとなっています。0.1秒まで表示する細かさは、通常の音声起こしではさほど必要ありません。1つの音声ファイルを数名で手分けして起こすことも多いので、時間表示の形式は音声ソフト共通にしたほうが便利です。

私はOkoshiyasu2に合わせて「hh:mm:ss」を選びました。ホットキーの設定に戻り、任意のキー(私はF11)を選んで「時間をコピー」を割り付けます。

文章内にタイムカウンターを記載する際は、「時間をコピー」キーの次に貼り付けのショートカットキー「Ctrl+V」となります。

 

次ページへ

Japanistは、かつて富士通が出していた日本語入力ソフトウエアです。私は日本語変換システムとしてはATOKを愛用していますが、年に1回か2回はJapanistに頼ります。ですから、CD-ROMを大事に保存して、PCが替わるたびインストールしています。

 

Japanistに頼る業務とは、過去に納品したファイルから専門用語などを一気に抜き出して、単語登録ファイルを作成すること。具体的にどうやるのかというと…。
ここ数日、okosoのツイッターである@okosozukin からつぶやいた実況を、まとめて掲載します。

 

7月5日

ATOKの文書学習ツール「おまかせキーワードチャージャー」って、たぶん長い目で見れば役立つのだろうけど。新分野の言葉は、Japanistで抽出して一気に単語登録するほうが確実ではあります。明日やろう。

 

7月6日AM


あまりに専門用語の多い審議会、しかも種類が増えて、これまでの単語登録ファイルに全く出てこない言葉が続出しています。今日は、単語登録ファイル作成を実況ツイートします。

 

Japanist2003、古いソフトですがVista対応のアップデートファイルが用意されていて、うまく動いてくれました。「おてがる登録」機能を起動して、Wordファイル23個を入れたフォルダを指定します。

 

japanist.jpg

 

2分とかからず、3456個もの単語を読みと品詞付きで抽出してくれました。でも「いけん サ変名詞 意見」など、登録する必要のない単語がかなり入っています。テキストファイルに書き出して、不要な単語を削除中。

 

「位置」や「図」は普通に変換できるけど、「位置図」は第一候補にこないことが多いので登録。「橋梁」は普通に変換できるけど、「橋台」(きょうだい)は出てこないので登録。

 

7月6日PM


午前11時、3500件を1100件に減らしたところで疲れたので、別の仕事を1時間ほどしていました。まだまだ減らします。面倒ですが、手動で単語登録するよりは速いし、見落としもないし、削除する言葉も一応読むので、頭に入ることは確かなのです。

 

作業中の単語ファイルと過去に作った単語ファイルを、まとめてエクセル1シートに貼り付ける。ふりがなで並べ替える。「次のセルと同じだと●が出る関数」を入れて、重複している語を削除。…まで終わりました。

 

ちなみに、「次のセルと同じだと●が出る関数」というのはこれです。
=IF(B1=B2,"●")
B列にふりがなが入っている状態で、この関数をA列に入力します。

 

ATOKで使うので、Japanistの品詞名をATOK型に変更。自動抽出された「品詞」や「読み」の明らかな間違いを修正。今生きている単語は571個。また別件の仕事に取りかかります。

 

聞き直しだけ自分でしたファイルって、自分のATOKに単語がたまっていかないので、ときどきこの方法で一気に単語登録しています。

 

  〈1〉  〈2〉  次ページへ

夏休み特別企画! テープ起こし用のおすすめ音声ソフトを豪華10連発でご紹介します。ソフトの選定は、私(廿里美)の独断です。ソフト名のアルファベット順にご紹介してきたこのコーナー、今日は最後の2ソフトです。

 

Windows Media Player
Windowsユーザーの場合、とにかくこのソフトは入っていて、たいがいの音声・動画ファイルを再生できます。私は、送られてきた音声を最初に聞いてみるときこのソフトを使うので、ほとんど毎日のように起動しています。特徴欄は×ばかりになってしまいましたが、あなどれないソフトです。

 

Windows Media Playerの特徴
1)ホットキーが使える…×
2)再生・停止が同じキーでできる…×
3)ちょっと戻り(オートバックスペース)ができる…×
4)速聞き・遅聞き時に音程が変わらない…×
5)ノイズ除去など…×
6)その他…多くの音声ファイル形式・動画ファイル形式を再生できる
7)価格…無料

 

先日、「ICレコーダーを骨までしゃぶる」でiPhoneのボイスメモを使ってみたところ、拡張子がm4aというAACファイルが作成されました。このファイル形式の存在自体を初めて知りましたが、Windows Media PlayerやQuick Time Playerで難なく再生できました。

 

テープ起こし用の音声ソフトは、再生できるファイル形式が一般に少ないので、AACなどはmp3など無難な形式に変換して使うことがほとんどです。ごくまれに、変換ソフトがなかなか見つからない音声形式で仕事が来ることがあります。そういう場合は、Media Playerで再生しておいて、それをVoice Writingで録音するという方法があります。

 

Voice WritingのStandard Editionには、PC内で流れる音声を何でも録音できる「超驚録」が組み込まれています。PC内で流れる音声(この際YouTubeでもUstreamでも)を何でも録音するソフトは、Windows XPにはいくつかありますが、Vista以降で使えるソフトはほとんど「超驚録」だけと言ってもいいぐらい少ないのです。…と、これは脱線でしたね。
さて、次ページは10連発最後のご紹介ソフトになります。

 

  〈1〉  〈2〉  次ページへ

 

連載第1回へ

連載第2回へ

連載第3回へ

夏休み特別企画! テープ起こし用のおすすめ音声ソフトを豪華10連発でご紹介します。ソフトの選定は、私(廿里美)の独断です。3回目の今回は、数少ないMac用のソフトから。

 

Pardon? OS X
http://www.vector.co.jp/soft/mac/edu/se220059.html
作者:永野靖忠氏

 

これはMac用のソフトです。そのため残念ながら自分では使ったことがありませんが、一応のご紹介です。

 

私の知っている範囲で、Pardon?の特徴
1)ホットキーが使える…○
2)再生・停止が同じキーでできる…○
3)ちょっと戻り(オートバックスペース)ができる…○
4)速聞き・遅聞き時に音程が変わらない…○
5)ノイズ除去など…不明
6)その他…不明
7)価格…フリー版と有料版シェアウェア1155円

 

  〈1〉  〈2〉  次ページへ

 

連載第1回へ

連載第2回へ

連載第4回へ

夏休み特別企画! テープ起こし用のおすすめ音声ソフトを豪華10連発でご紹介します。ソフトの選定は、私(廿里美)の独断です。2回目の今回は、まず海外ソフト。

 

Express Scribe
http://www.nch.com.au/scribe/index.html

NCH Softwareというオーストラリア企業のソフトです。

 

Express Scribeの特徴(分かる範囲ですが)

1)ホットキーが使える…○
2)再生・停止が同じキーでできる…×
3)ちょっと戻り(オートバックスペース)ができる…○
4)速聞き・遅聞き時に音程が変わらない…○
5)ノイズ除去など…不明(英語なのでよく分からない、すみません!)
6)その他…多くの音声形式に対応している、ブックマークが付けられる。
7)価格…無料

 

英語ですがめげずに、このページ下部の「Supported File Formats」という欄を見てください(私はサイト翻訳機能を使って見ています)。たくさん挙がっています。
中でも、オリンパス形式、ソニー形式、フィリップス形式、サンヨー形式に対応しているのが目を引きます。もっとも、Digital Voice Editorで書いたように、最近はメーカー独自形式の音声はずいぶん減りましたが。

 

音声のあとでもう一回確認!と思った個所にブックマーク(インデックスマーク)を付ける機能は、Digital Voice EditorやDSS Playerにも一応あります。ただ、自社のICレコーダーで録音された音声でないと付けられないなどの制約があります。このソフトは、そういう制限がないので便利です。

 

  〈1〉  〈2〉  〈3〉  次ページへ

 

連載第1回へ

連載第3回へ

連載第4回へ

夏休み特別企画! テープ起こし用のおすすめ音声ソフトを豪華10連発でご紹介します。ソフトの選定は、私(廿里美)の独断です。

 

「テープ起こし用の音声ソフトって、最適なのを1つ勧めればいいんじゃないの?」

 

そうとも言えましょう、しかし。
どのソフトにもそれぞれの特徴があるので、用途によって使い分けることもおすすめです。

 

まず、テープ起こし用音声ソフトに必要な機能として次の5つを定義しましょう。
1)ホットキーが使える
2)再生・停止が同じキーでできる
3)ちょっと戻り(オートバックスペース)ができる
4)速聞き・遅聞き時に音程が変わらない
5)ノイズ除去など

 

1は、他のソフト(例えばワードやエクセル)がアクティブになっていても、キーボード上の特定のキーで音声ソフトを操作できる機能。いちいちマウスに持ち替えてアクティブなソフトを切り替えると、作業効率が落ちますから。
2は、私はこのほうが便利だと思うのですが、慣れの問題かもしれません。
3、テープ起こしをしているとき音声をストップするのは、入力が追いつかなくなったときなので、その数秒手前から聞ける機能が便利なのです。
4、再生速度を変えると声のトーンも変わってしまうのでは、聞き取りにくいので。
5、私自身はこの機能をあまり使いませんが、各ソフトが工夫している部分なのでご紹介します。

 

ではさっそく次ページから…。アルファベット順の登場で、まずはこんなソフトです。

 

  〈1〉  〈2〉  〈3〉  次ページへ

 

連載第2回へ

連載第3回へ

連載第4回へ

 4月15日の「最新サービス・新製品情報」に、アドバンスト・メディアの議事録作成支援システムが納入60件を達成という記事を掲載しました。その記事内に「興味しんしんです」と書いたあと、考えました。「興味あるわー」というやじ馬的な態度に終わらず、音声認識技術についてしっかり取材した記事を書くべきではないかと。

 

 ICレコーダーなどに録音された音声を、自動で文字化するソフト。それがあれば仕事は劇的にラクに、速くなる。そのための情報を探してokosoにたどり着いてくださる方が多いからです。
 一方で、そんなソフトが普及したらテープ起こしをする者は仕事を失うのではという心配の声もよく聞きます。

 

 そこで、昨日アドバンスト・メディア社にお邪魔してきました。
 下の写真は、AmiVoiceの音声認識による文字化(が映し出された会議室のスクリーン)です。私がきのうの日経新聞の社説冒頭を読み上げたもので、「声の登録」や「マイクのトレーニング」不要、チャレンジ一発。かなりうまく文字化され、同音異義語が正しく処理され、句読点まで挿入されています。

amivoice3.jpg

 「し」という無駄な1文字があるのと、誤:日米欧等→正:日米欧と、という2カ所が誤認識です。といってもこれは誤認識というより、私が言いよどんだところ。実際にそう発音しているので、必ずしもソフトのせいではありません。

 

 普通のメディアだったら、この認識率に感服し、あとはシステムの概要や納入状況などを手際よく紹介して簡潔にまとめるところです。しかし、業界の人間としては「でも、これって××(←伏せ字。連載をお楽しみに!)だもの」と反射的に思います。
 そのとき、先方も「でも、これは××ですからね」とおっしゃったのです。
 オコシスト以外で、音声の文字化についてこれほど理解している方々にお会いしたのは初めてでした。

 

 同社の「議事録作成支援システム」は数百万円、PC用音声入力ソフト「AmiVoice Es 2008」は2万円弱、iPhone向け「音声認識メール」は105円。この途方もない価格差は何から来るのか。
 それは主に、音声認識の限界を補うための周到な対策の差でした。その説明は非常に納得のいくものだったので、この際okosoではドーンと、できるだけ詳細にご紹介します。音声認識技術の現状についてここまで詳しく書けるのは、テープ起こし・音声起こしの総合情報サイトであるokosoしかない!という意気込みで。

 

 AmiVoice Es 2008の試用版を頂戴いたしました。ありがとうございます。

amivoice1.jpg

 というわけで、音声認識に関する連載は来週からスタートです。