言語サービス業界に追い風:Microsoftの音声認識技術の飛躍的な進化
Share
Click here to close
Click here to close
Subscribe here

言語サービス業界に追い風:Microsoftの音声認識技術の飛躍的な進化

言語サービス業界に追い風:Microsoftの音声認識技術の飛躍的な進化

言語サービス業界に追い風:Microsoftの音声認識技術の飛躍的な進化

言語関連技術を利用する人たちに嬉しいニュースが届きました。Microsoftが、会話音声認識システムにおいて人間のプロ速記者と同等以上の精度を達成したと発表したのです。誤認識率5.1%(前年比12%減)という数字は業界の新たな基準となり、翻訳をはじめとしてMicrosoftのさまざまなビジネスサービスにとって大きなプラスとなるでしょう。

[Moravia日本語ブログを無料購読]

Microsoft Speech & Dialogリサーチグループの首席音声研究者であるXuedong Huang氏によると、今回の快挙の立役者となったのはオープンソースライセンスに基づいてGitHub上で無料公開されているMicrosoft Cognitive Toolkit 2.1で、膨大なデータセットを処理するためのツールです。今回、このツールを利用してSwitchboard(アメリカ英語の電話音声を録音した260時間に及ぶデータセット)の音声認識処理を実施しました。1990年と1991年にテキサス・インスツルメンツ向けに収集されたSwitchboardのデータは、音声認識分野において、広範囲にわたる産業プロジェクトや学術プロジェクトに利用されています。

このリサーチグループの研究は、すでに多くのMicrosoft製品に応用されています。そのうちのひとつが7月に発表されたPresentation Translatorです。Microsoft Translatorの同時翻訳機能を備えたPowerPointのアドインで、プレゼンテーションをリアルタイムで翻訳します。アラビア語、中国語(北京語)、英語、フランス語、ドイツ語、イタリア語、日本語、ポルトガル語、ロシア語、スペイン語の10言語のソース(音声)に対応しています。ターゲット言語は60言語(テキスト)に対応し、スライドに字幕として翻訳が表示されます。ソース言語の音声が英語か中国語であれば、音声入力の設定をニーズに合わせて変更し、業界用語や専門用語にも対応できます。Microsoftによれば精度を30%高めることも可能です。

Presentation Translatorの基本的な使い方 出典:Microsoft Research

Huang氏がグループの研究成果についてブログで述べているように、会話音声認識の精度が向上したとはいえ、まだまだ課題はあります。訛りの強い音声、複数の言語や複数人による会話、雑音が多い環境などへの対応は、引き続き改善が必要です。また、機械翻訳を利用したことがある方ならご存知のように、主要言語への対応は進んでいますが、それ以外の言語への対応には遅れが見られます。

とはいえ、音声認識がここまで進化したことは翻訳やローカリゼーションを必要とする顧客にとっては大きなチャンスです。Microsoft、AppleGoogleなどのグローバル企業はAI(人工知能)、ディープラーニング(深層学習)技術、機械翻訳エンジンを連携して活用し、世界中のビジネス顧客向けにシームレスな多言語製品やサービスを提供しています。さらに、こうした製品やサービスを通じて、多言語によるマーケティングを展開し、世界中で新たなビジネスチャンスを掘り起こすことも可能になります。

技術の恩恵はエンドユーザーにももたらされます。音声認識システムを基盤として、MicrosoftのCortana(Windows 10用)、AppleのSiri、AmazonのAlexaをはじめとするインテリジェントバーチャルアシスタント(IVA)の性能が向上し、ますます多くの家庭でIVAが利用されるようになるでしょう。

1週間前、AmazonがAlexa Voice Service Device SDKを発表し、Alexaを外部のデベロッパーに公開することになりました。最近、MozillaもCommon Voiceというプロジェクトを発表し、オープンソースの音声認識システムの開発に貢献してくれるボランティアを募っています。リサーチ会社のGlobal Market Insightsによれば、多言語・グローバルIVA市場の規模は、2024年までに75億ドルを超えると予想されています。それを実現するのはもちろん、音声認識技術の発展と、世界中のモバイル技術市場の成長でしょう。

Alexa Voice Service Device SDKの基本的な使い方 出典:Amazon Alexa Developers

開発対象(公共部門と民間部門)や利用場所(職場や車内など)を問わず、音声認識技術が進歩することで、世界の多言語市場は一変するでしょう。Microsoftリサーチチームの功績に、称賛を送りたいと思います。


[編集メモ:この記事は、2017年8月に投稿した内容に加筆・訂正したものです。リーボル・シャファルジュ による元の記事はこちらからご覧いただけます。]  [編集: MLS] [o/i]

 

Comments