Kardome Mobility、AI搭載技術で自動車OEMの次世代音声インターフェースを強化
音声アシスタントの適応を遅らせる主な障壁は、不十分な音声認識精度である。さらに、言語カバー率、ユーザーの期待、セキュリティ、コスト、展開と統合の複雑さといった課題も、可能な限り最高の音声ユーザー体験を提供するために対処しなければならない。Kardomeは、このような複数の課題に対処するため、既存の車載音声認識システムを劇的に改善するモビリティ分野向けのソフトウェア・ソリューションを開発した。
自然言語処理と機械学習を統合することで、よりシームレスで直感的な車内での音声対話体験が可能になり、音声アシスタントは現代の自動車技術の重要な一部となっている。
しかし、多くの利点があるにもかかわらず、まだいくつかの課題に対処する必要がある。音声アシスタントの適応を遅らせる主な障壁は、音声認識の精度が十分でないことであり、特に騒音や混雑した車内環境では困難となる。さらに、可能な限り最高の音声ユーザー体験を提供するためには、言語カバー率、ユーザーの期待、セキュリティ、コスト、展開と統合の複雑さなどの課題にも対処しなければならない。
このような障壁は、典型的な車内環境ではさらに顕著になる。一般的に、狭くて騒々しい空間は、多くの人でごった返していることが多い。十分な音声認識精度を確保するためには、車載音声アシスタントの「ヒアリング能力」を高める必要がある。
車載音声アシスタントに人間レベルのヒアリング能力を提供する技術的ソリューションがないため、一部の自動車メーカーは、各車両の座席の近くにマイクを配置している。このようなマイクロフォン・ネットワークは、それぞれの部品表(BOM)、設置、およびメンテナンス・コストの点で高価である。その結果、ほとんどの車両では、頭上のコンパートメントにある1つのマイクロホン・アレイを使用しながら、音声アシスタントへのアクセスはドライバーに制限されています。
Kardomeは、このような複数の課題に対処するため、既存の車載音声認識システムを劇的に改善するモビリティ分野向けのソフトウェア・ソリューションを開発した。
Kardome Mobility は、オーバーヘッドコンパートメント内の1つのマイクアレイで、3つの座席列の最大6人のスピーカをキャプチャできる唯一のソフトウェアソリューションです。 必要な音声を分離し、バックグラウンドノイズやエコーを低減し、音声バイオメトリクスで話している人を識別することができます。
車載音声技術における効果的な音声キャプチャの課題を検証する
自動車の音響的複雑性
自動車はしばしば騒々しい環境である。低速で滑らかな路面ではエンジン音が騒音の大半を占めるが、高速では風切り音が目立つようになる。市街地を走行する場合、最も大きく寄与するのはロードノイズ、つまりタイヤと路面の摩擦音である。電気自動車はエンジンノイズが少ないとはいえ、ロードノイズや風切り音は音声認識システムにとって大きな課題となります。
さらに、シェアードモビリティや自律走行のトレンドに伴い、車には複数の人が乗ることが多い。つまり、会話ノイズ、スピーカー間の干渉、スピーカーのデバイスからのノイズも問題となる。
メーカーは、可能な限り最高の音声ユーザー体験を提供するために、バックグラウンドノイズや複数の人が車内で話すという問題に取り組まなければなりません。Voice.botによる車内音声アシスタント消費者導入レポートによると、 ドライバーの60 %が音声アシスタントの品質は意思決定プロセスの要因であると回答しており、13%は重要な要因であると考えています。
さらに、音声アシスタンスへのアクセスを期待しているのはドライバーと前席の乗客だけでなく、車に乗っているすべての乗客が完璧な音声アクセスを期待している。自律走行車の利用が増えるにつれて、車の運転手と同乗者による正確な音声対話の需要はさらに重要になるだろう。
複雑な統合とコスト
信頼性の高い音声ユーザーインターフェースを実現するために、OEMはビームフォーミングを利用して、車両のルーフライナーにマイクロホンアレイを配置する必要があります。各マイクロホンアレイは、ビームフォーミングアルゴリズムを 使用して、走行ノイズや干渉スピーカーの低減を図りながら、ターゲットスピーカーに向けて音声捕捉を 行います。
信頼性を向上させるために複数のマイクロホンを配置することは、大きなコストとなる。BOMの設置やメンテナンスにコストがかかり、マイクロホン・ネットワークは車内ごとにカスタマイズする必要があるため、設計コストも高くなる。
さらに、複数のマイクアレイを配置すると、デザイン上の制約が生じ、車の美観が損なわれる。例えば、ガラストップの車では、座席の上にマイクを設置することはできません。
なぜ自動車メーカーは、頭上のコンパートメントにマイクアレイを1本だけ設置することを避け、ビームフォーミングを採用して車内の全座席に向けて音声を取り込むのでしょうか?答えは簡単だ。
ビームフォーミングでは、"到達方向 "と呼ばれる一次元のパラメータを使って音場をモデリングする。しかし、車のような密閉された環境では、音波は直進経路を通り、車の窓やパネルで跳ね返り、最終的には数百の異なる方向からマイクロホンアレイに到達する。
ビームフォーミングは単一の経路にしか焦点を当てることができないため、実際の音環境を正しく表現することができません。その結果、ビームフォーミング技術は、話し手がマイクから50cm以上離れている場合、効果的に音声を捕捉することができない。
カルドームのイノベーション
Kardomeのイノベーションにはスポットフォーミングがある。この独自の多次元サウンドスケープ分析法は、環境内の各音源とマイクロホンアレイの相対的な位置を抽出することにより、空間内のエコーなどの空間的な手がかりを解読します。
スポットフォーミングは、サウンドスケープ内の各音源が作り出す反射パターン全体を推測することができる技術である。これは、音源(人が話す音)が何もしなくても可能です。音源と装置の間の環境形状と相対的な位置が反射パターンを定義します。その結果、スポットフォーミングは、空間内の位置に基づいて話者を分類できる位置ベースの技術です。
スポットフォーミングは、ビームフォーミング特有のモデリングの欠点を克服し、閉鎖環境における多次元のサウンドスケープを正確にデコードします。Kardomeのソリューションは、頭上のコンパートメントに1つのマイクロホンアレイを設置するだけで、車内の各乗員に向けた音響ズームを作ることができるため、自動車において実用的なメリットがある。
カルドーム・モビリティ
Kardomeは、このスポットフォーミング・フレームワークに基づき、Kardome Mobilityという自動車業界向けの完全なエッジ・オーディオ・スタックを開発した。
Kardome Mobilityには以下の機能がある:
- スポットフォーミングベースのオーディオフロントエンド(AFE):スポットフォーミングの3Dモデルは、残響を利用して異なる場所からの音(音声)を分離します。AFEには、マルチチャンネル音響エコーキャンセレーション、ノイズリダクション、音源(スピーカー)分離、車内のどこからスピーチが聞こえてくるかを識別する機能が含まれています。
- ウェイクワード: 独自のエッジ認識モデルは、"Alexa "や "Hey Siri "といった特定のトリガー・ワードを聞いたときのみ、リスニングを開始するように設計されている。
- 音声バイオメトリクス:個人の音声に基づいてユーザーを識別/認証する独自のエッジモデル。
Kardome Mobilityソフトウェアパッケージは、スポットフォーミングを使用した包括的な音声スタックである。独自の音声バイオメトリクスとウェイクワードAIモデルがその上で使用され、スポットフォーミングフレームワークの下で動作するように設計・訓練されている。
Kardomeの空間聴覚ソフトウエアは、最も困難な音環境においても、機械が話者の声、位置、発話内容を正確に認識することを可能にします。スピーチAIモジュールをAFEのトレーニングプロセスに統合することで、Kardomeのアプローチは、AFEとスピーチAIを別々に開発する断片的なシステムと比較して、優れた性能を実現する。
Kardome Mobilityは以下のような車内での使用例をサポートしている:
- コミュニケーション
- ハンズフリー電話
- 車内通信、アナウンス・モードのみ
- 音声人工知能(AI)
- ウェイク 単語認識
- 音声識別
- 自動音声認識:サードパーティのASRエンジンとのインターフェイスを介して。
AFEモジュールは、音声AIモジュールとハンズフリーテレフォニー(HFT)などの通信モジュールに入力を提供する2つの領域で動作する。音声AIでは、AFEはターゲットスピーカーを分離し、音声認識率を向上させます。システムはこれらのパラメーターを自動的に切り替え、両方のシナリオでパフォーマンスを最大化します。
以下は、8個のMEMSマイクロフォンからなるマイクロフォンアレイを利用したAFEモジュールのブロック図である。このようなシステムでは、オーバーヘッドコンパートメントに1つのマイクアレイを使用することで、3列にわたって最大6つのサウンドキャプチャスポットがあります。
本研究では、音声AIアプリケーションとHFTに対するAFEの性能をまとめた。https://bit.ly/speechrecognitionstudy
ハードウェアとのシームレスな統合
Kardome Mobilityは、インフォテインメント・システムのファームウェアに統合されたソフトウェア・ソリューションである。
OEMは、LinuxライブラリまたはAndroidアプリケーションとして、プライマリアプリケーションプロセッサ(AP)上にソフトウェアを実装することができる。あるいは、クアルコムのHexagon DSPやサムスンのHiFi DSPなど、APシリコンに統合された専用DSPを使用するか、外付けの専用チップを使用してKardome Mobilityを実装することもできる。この場合、Kardome Mobilityソフトウェアは、アコースティック・エコー・キャンセラを実装するためのオーディオ出力リファレンス信号にアクセスできなければならない。
Kardome Mobilityは、4本以上のマイクロホン・アレイで動作する。使用されるマイクロホン素子は一般的に単純なMEMSマイクロホンである。Kardome Mobility用の典型的なマイクロホンアレイは8個のMEMSマイクロホンで構成され、全体の寸法は20×50×5mmである。また、前述のように、OEMは通常、このようなマイクロホンアレイをオーバーヘッドコンパートメントに配置し、A2Bオーディオバスを使用して中央インフォテインメントシステムとインターフェースすることを好む。
結論Kardome Mobilityの車載音声技術革命
Kardome Mobilityは、車載音声技術に革命を起こす先導者である。そのスポットフォーミング音声AI技術は、従来の音声システムの限界を取り除き、各乗客にパーソナライズされた音声インターフェースを提供する。Kardomeの革新的なアプローチは、正確で正確な音声認識を保証し、真にコネクテッドでパーソナライズされた運転体験への道を開く。
Kardome Mobilityについての詳細はこちら:https://bit.ly/Kardome-Mobility