音声コントロールは拡張現実(AR)メガネの重要な機能であり、ユーザーはハンズフリーでデジタル世界と対話することができる。しかし、使用される音声技術の能力は、その使いやすさ、ひいては普及に不可欠である。

ARグラスにおけるオーディオ・フロントエンドの重要な役割

音声コントロールは拡張現実(AR)メガネの重要な機能であり、ユーザーはハンズフリーでデジタル世界と対話することができる。しかし、使用される音声技術の能力は、その使いやすさ、ひいては普及に不可欠である。

ダニエル・シェファー
ダニエル・シェファー
北米事業開発担当副社長

目次

音声コントロールはARメガネの重要な機能であり、ユーザーはハンズフリーでデジタル世界と対話することができる。 

音声で操作できるARメガネの例としては、緊急対応訓練や企業向けのリアルタイム複合現実コラボレーションプラットフォームとして作られたMagic Leap 2や、医療、製造、倉庫業向けのVuzixなどがある。アップルのARメガネは数年先には発売されないだろうが、目、手、音声を使ってコントロールする複合現実感ヘッドセットVision Proをリリースしている。

これらの企業はすでにARグラスに音声認識を組み込んでいるが、使用される音声技術の能力は、その使い勝手、ひいては普及に不可欠である。 

スマートARグラスのオーディオフロントエンドは、ユーザーの声を取り込み、処理する。バックグラウンドノイズをフィルタリングし、音声IDや通信モジュールに信号を送信します。正確な音声コントロールにより、ユーザーはメガネを操作したり、電話をかけたり、ビデオ録画をしたりすることができる。

ARグラスで音声を使用する際の制限要因であるビームフォーミング

これまで、ARグラスやその他の音声ユーザーインターフェースは、環境ノイズを低減し、話者の声を分離するためにビームフォーミングベースの技術を利用していた。ビームフォーミングは、信号がマイクアレイに到達する方向に基づいて信号を分離する。ビームフォーミング・ソリューションは、クアルコム、NXP、MediaTek、DSPなど多くのソースから提供されている。

しかし、ビームフォーミングにはいくつかの固有の限界がある。まず、ARメガネではフレームの幅または長さで区切られるアレイの開口部(アレイ開口部)にマイクを近づけるほど性能が低下する。経験則として、ビームフォーミングは、歪みを加えることなく、アレイ内のN個のマイクに対して~N^2dBのノイズ低減を提供できる。 

ビームフォーミングのもう一つの限界は、エコーを効果的に処理できないことや、ノイズと希望する音声が同じ方向から来るような状況に対応できないことである。さらに、クアルコムのFluenceのように、サポートできるマイクの数に制限があるソリューションもある。

Kardome 空間聴覚
ARグラス用ソフトウェア

このような課題を念頭に置いて、カルドームは、残響を利用して異なる場所の音(音声)を分離する3Dニューラルネットワークベースのモデルを使用した独自のスポット形成技術を開発した。

KardomeのSpatial Hearingソフトウェアは、特許取得済みのスポットフォーマをベースとした総合的な音声スタックです。ビームフォーミングベースのソリューションと比較して優れたノイズリダクションをARグラスやその他のデバイスに装備し、音源分離と音声ズーム機能を提供し、音声認識精度を向上させ、ウェイクアップワード機能を容易にし、高精度の生体認証を可能にします。これらの機能により、ARグラスの潜在的な可能性が解き放たれ、音声ユーザー体験と機能性が強化されます。

音声AI-ビームフォーミングからの脱却

KardomeのAIベースのアプローチは、常に変化する騒音や残響のある環境における音声認識性能を向上させる。KardomeのVoice AIは、"スポットフォーミング "と呼ばれるあらゆる環境ノイズ源の音響プロファイルを常に分析し、適応させることでこれを実現する。 

スポットフォーミングとは、希望する音源の周囲に仮想的な泡を作ることだと考えることができる。KardomeのSpatial Hearingソフトウェアは、直接または複数の経路から音を捕らえるので、空間内の好みの音源の位置にオーディオフォーカスを合わせることができる。

その結果、出力信号対雑音比(SNR)が大幅に向上します。Kardomeは性能を劇的に向上させ、顕著な歪みを加えることなく、干渉信号を最大~35 Ǒ減衰させます。

KardomeのAI駆動スポットフォーミング技術は、10 ㏈以下のSNRの音声認識性能も大幅に向上させる。SNR ≅-15 𝐵という困難なシナリオであっても、ノイズの多い環境でKardomeを適用することが、ASRが機能しないかシームレスなユーザー体験が得られるかの分かれ目になることは特筆に値する。

KardomeのARグラス用音声AI
の3つの利点 

音声通信

ARグラスは、いくつかの音声ユースケースを同時にサポートしなければならない:電話をかけるためのハンズフリー電話、ARメガネのインターフェースと対話するための音声認識エンジンとの会話、余計な声やノイズを排除しながらのビデオ録画などである。  

経験則として、人間の耳は、音声の歪みが大きくなっても、よりノイズの少ない音声を好みます。対照的に、ASRは通常、背景雑音が多少残っていても、歪みのない音声を好みます。 

それぞれに最適化するには、オーディオ・フロントエンドで異なるシステム設定が必要で、特にデバイスが常にリスニングしている場合は、同時に動作する能力が求められる。

Kardomeは、最大35 ᵅ𝐵の干渉信号を緩和することで、不要なノイズや音声がデバイスのユーザーインターフェースに干渉する問題を解決します。音声分離、エコーキャンセレーション、ノイズ除去を含むKardomeのコアテクノロジーは、どんな困難な音響環境でもARグラスで歪みのない音声認識を可能にする。

セキュリティ

音声技術を使用するデバイスは、そのインターフェースへの不要なアクセスを防がなければならない。これを実現するには、2つの補完的な方法がある。1つ目は、外部の音声を減衰させ、ARメガネを使用していない人が有効な音声ソースにならないようにすることです。もう1つは、音声バイオメトリクスを使用して、許可されたユーザーを正確に識別することです。

しかし、最初のケースでは、外部の音はどの方向から聞こえてくる可能性があるため、ビームフォーミングで外部の雑音を低減することは難しい。第2のケースでは、音声バイオメトリクスは話者を正確に識別し、これを数秒以内に行わなければならない。

Kardomeの技術は、騒がしい環境下でも、誰が話しているかを高精度に音声バイオメトリクスで識別します。最近の研究によれば、Kardomeの空間音声バイオメトリクスは、どのような音響環境においても、1秒という短い発話に対して95%の精度を実現する。

ビデオ録画

ARグラスのもう一つの用途は、遠隔支援やトレーニングなどのために、ユーザーが見ているものをビデオに録画して共有することです。ユーザーが特定の領域に集中しているとき、例えば問題を診断しようとしているとき、機械であれ人が話しているのであれ、ユーザーが見ている場所に音声がフォーカスされると便利です。この機能はオーディオズームと呼ばれ、オーディオフロントエンドがメガネの焦点とメガネから聞こえるノイズを同期させる必要があります。 

Audio Zoomは、1つのスピーカーなど、明瞭な音源で最も効果的に機能します。複数の人が話していると、一人の声を分離するのが難しくなります。このような場合、音声処理に漏れが生じる可能性があります。

KardomeのAudio Zoomは、特許取得済みの空間聴覚技術により、希望する話者の声に焦点を合わせ、周囲の雑音や他の人の話し声を排除し、ビデオ録画に合わせたクリアな音声を提供します。

結論

全体として、スマートARグラスのオーディオフロントエンドは、音声ユーザーがポジティブで生産的な体験をするために重要な役割を果たします。音声フロントエンドは、音声をエラーなく処理し、重要でない音を減衰させ、重要な音に集中させることで、スマートARグラスをより機能的で、安全で、使いやすいものにするのに役立ちます。

KardomeのSpatial Hearing Technologyは、ARグラスでより良いオーディオ体験を提供するためにメーカーが直面している技術的課題を克服し、ユーザーインターフェース、録音、セキュリティ、音声通信にいくつかの利点をもたらす。

ARグラスがより多くのユースケースに対応するにつれ、強力なオーディオフロントエンドへのニーズは高まるだろう。KardomeのSpatial Hearing Technologyはこのようなニーズに応えることができる。


KardomeのARグラス用音声AIについてもっと知りたい方は専門家にご相談ください。