ASRシステムエンジニアと音声対応デバイスメーカーは、信頼を獲得し、消費者と企業による音声技術の採用を加速させるために、可能な限り最高のASR性能を提供する必要があります。

現在の音声認識技術の問題点

ASRシステムエンジニアと音声対応デバイスメーカーは、信頼を獲得し、消費者と企業による音声技術の採用を加速させるために、可能な限り最高のASR性能を提供する必要があります。

ダニエル・チェルカスキー博士
ダニエル・チェルカスキー博士
CEO、共同設立者
技術

目次

自動音声認識(ASR)エンジンは、30年以上前から存在しています。この技術は、不格好で、コストが高く、動作の遅い口述録音アプリケーションから、車、家庭、教室、職場にある人工知能を搭載した音声認識装置へと急速に発展しました。

音声認識が一般消費者や企業に爆発的に普及したのは、2011年にアップルがSiriを搭載したiPhone 4Sを発売した時です。当時、世界の音声・スピーチテクノロジー市場は6ドルと推定されていました。2021年には83億ドルに達し、 2027年には222億ドルという驚異的な市場規模になると予測されています。

音声技術産業は3倍に成長すると予測されていますが、音声認識システムの性能の低さ、すなわち騒音環境、干渉信号の中、誰が話しているかを正確に識別できないといった問題が、この急激な成長を鈍化させる可能性があります。

ASR技術に対する消費者の不満

2020年の世界調査では、 ユーザーの73%が、ボイステックの採用を阻害する要因の第一位は 精度であると回答しています。

アクセントや方言に関連する問題は、ユーザーが直面する問題の中で2番目にフラストレーションがたまるものです。また、エンドユーザーの期待や使用・統合の複雑さも、ボイステック導入の主な障壁となっています。 

PwCの調査による次の引用は、現在の音声認識デバイスに対する不満と、重要な障害である「信頼」を例証しています。

"アシスタントは私の質問に半分も答えられないのに、お金に関することなら信用しろというのか?"

-女性、26歳、PwC

Voicebot.aiの最近の調査によると、過去2年間でスマートスピーカーの利用が激減していることがわかりました。代わりに、消費者はスマートフォンの仮想アシスタントをより多く使用しています。 

これは、スマートスピーカーに搭載された音声認識機能に対するお客様の不満が一因ではないでしょうか?スマートフォンの方が理解しやすいというのは、ユーザーがスマートフォンに近づいたり、イヤホンを使ったりして、音声認識システムにユーザーの声を近づけていることが原因かもしれません。

音声認識性能の低さは、消費者をイライラさせます。ASRシステムは、バックグラウンドノイズ、複数の人の会話、信号の乱れ、距離などによって、人間の音声を正確に処理し、理解することができません。

理想的なASRシステムは、静かな環境でも雑踏の中でも、正確な音声認識を実現します。さらに、完璧な音声認識デバイスは、誰が話しているのか、どこにいるのかを把握し、音声コマンドに対して正確でパーソナライズされた応答を提供します。

ASRシステムエンジニアと音声対応デバイスメーカーは、信頼を獲得し、消費者と企業による音声技術の採用を加速させるために、可能な限り最高のASR性能を提供する必要があります。

ASRの技術的課題への対応

音声対応機器は、ホームオートメーションから生活支援・認知支援まで、私たちの生活のさまざまな局面を革新する可能性を秘めています。

多くの企業は、顧客体験の向上やブランドエンゲージメントを高めるために、音声インターフェースを導入しています。また、音声認識や音声合成の精度や使いやすさが向上するにつれて、顧客サービスやサポート、あるいは医療や金融分野の合理化など、他の目的でも音声インターフェースを利用することが増えてくるかもしれません。 

IT 産業において、音声は決して新しいものではありません。しかし、音声対応のスマートフォンの普及と入手性の向上、およびより自然な音声による人間と機械の対話への要求の高まりにより、多くのソフトウェア企業にとって最優先事項となっています。

音声認識に関する技術的な課題は、これまでにもよく知られ、多くの企業によって取り組まれてきました。これらの課題を解決する限り、音声対応機器の市場は拡大し続けるでしょう。

Kardomeは困難な音環境下でも95%の音声認識精度を実現することを示す研究成果

付属の研究では、Kardomeの音声ユーザーインターフェース技術は、最も騒がしい音環境において、従来の音声認識アルゴリズムを上回る性能を発揮することが示されています。

この研究では、最も静かな環境から最も騒々しい環境まで、さまざまな環境におけるASRの性能を調査し、Wake Wordの偽拒絶率(FRR)と応答精度(RAR)を測定しています。 

扇風機やエアコン、子供の遊ぶ声など、一般的に騒がしいリビングルームにスマートスピーカーを設置し、FRRとRARのテストを実施しました。また、スマートスピーカーの隣に大音量のスマートテレビを置いてテストを実施しました。

調査結果をダウンロードする