Kardome社の技術は、複数のスピーカーや周囲の音がある実生活の中で、VUIの動作を可能にします。

自動車における音声認識 - VUIの実験的研究

Kardome社の技術は、複数のスピーカーや周囲の音がある実生活の中で、VUIの動作を可能にします。

ダニー・チェルカスキー
ダニー・チェルカスキー
CEO、共同設立者
製品アップデート

目次


Voicebot.AIによる最近の調査では、約60%の消費者が、新車購入の基準に音声アシスタントが影響すると答えていることが明らかになりました。全体の20%以上の消費者が、車内での音声アシスタント体験を "重要な検討事項 "または "必要条件 "としています。

また、同じ調査によると、自動車のボイス・インターフェース・ユーザーの約50%が、過去2年間にボイス・ユーザー・インターフェース(VUI)の性能が大きく向上していないと考えていることがわかりました。 

現在、ほとんどの人は、自動車のVUIを、従来のタッチスクリーンやボタンに代わる強固なインターフェースというよりも、むしろガジェットとして考えています。この10年間で音声認識エンジンは進歩しましたが、自動車のVUIの性能は依然として信頼性に欠けています。最新の音声認識エンジンは、音声信号の干渉や走行時の騒音などの問題を抱えています。

図1:ボイスコントロールマニュアル

現在、自動車メーカーは、BMWと同様に、自動車に搭載されたVUIシステムのマニュアルを提供しています。これらのマニュアルでは、VUIが動作するための環境を整えることがユーザーの責任とされています。

ユーザーへの代表的な指示は「周囲の騒音を避けてください」「音声コマンド発行中は声を出さないように同乗者にお願いしてください」などです。当然のことながら、ユーザーは機械に理解されないことに苛立ちを感じ、信頼感やエンゲージメントを低下させます。 

ここでKardomeの出番です。Kardomeの技術は、複数のスピーカーや周囲の音がある実生活の中で、VUIを機能させることができます。Kardomeのソフトウェアは、複数のユーザーが同乗者からの干渉を受けずに同時にデバイスと通信できるようにすることで、騒音の多い車内でも音声技術を機能させます。Kardomeは、最適な交通安全と、優れたドライバー/乗客のVUI体験を保証します。 

この記事では、音響ソリューションと音響振動解析のリーディングカンパニーであるHEAD acoustics GmbHが実施した実験研究の結果を紹介します。この研究の目的は、時速120kmで走行する自動車の中で、Google Speech to Text(GSST)エンジンによって得られた音声認識率(SRR)を、標準的なハンズフリーテレフォニー(HFT)オーディオスタックと、Kardome社のGavel評価キットに搭載されているAIによる信号分離とノイズリダクション技術の2種類の音声処理システムで比較することです。 

その結果、Kardome社の技術は、あらゆる種類の音環境において、車内の音声対話装置の音声認識を向上させることができることがわかりました。

SRR評価セットアップ 

Kardome社のGavel Evaluation Kitは、Renault Megane Grandtourのオーバーヘッドコンパートメントに、標準のHFTシステムのマイクの隣に設置されました。車内に4台の人工頭部測定システムを設置し、フルバンド対応の人工口から音声を届けました。

図2:4台の人工頭髪計測システムとKardome'sGavel Evaluation Kitを備えた評価用セットアップ。


私たちは3つのシナリオを考えました。

  1. ドライバーの単独演説
  2. ドライバーとコ・ドライバーの2人同時発言
  3. 4人の同時通訳者

すべてのシナリオにおいて、既存の車載用HFTシステムとKardome社のGavel Evaluation Kitを用いて音声信号を録音しました。HEADアコースティックのエンジニアは、GSTTが出力したテキストとドライバーの実際の会話を比較して、音声認識率をテストしました。

結果

図3は,検討したシナリオのそれぞれについて,SRR性能を示したものである。図中の各ビンは、3つの戦略のそれぞれにおいて、2つの信号処理方法(HFTとKardome)のそれぞれで得られたSRRを表している。緑色のビンはHFTに,青色のビンはKardomeの音声クラスタリングシステムに対応している。

車内でのSpeech to Textパフォーマンス
図3:Kardomeと標準的なHFTシステムを車内で使用した場合のGSTT音声認識率。

概要

KardomeのAIによる信号分離とノイズリダクション技術は、検討したすべてのシナリオでSRRを大幅に改善しました。干渉する音声信号は、話者の数が増えるにつれてハンズフリー・テレフォニー・システムの結果を著しく低下させた。一方、Kardomeは、話者の数や干渉信号に関わらず、一貫したSRRパフォーマンスを獲得しました。

Kardome社のようなVUIデザインを用いて自動車の音声認識技術を向上させることは、音声アシスタントメーカーが音声認識の非効率性を克服するのに役立ちます。また、スマートカーの音声アシスタント機能の市場がまもなく混雑する中で、自動車メーカーが効果的に競争するためにも役立ちます。 

メッセージを送るKardomeの詳細については、こちらをご覧ください。