Kardome社の位置情報に基づくスピーチクラスター化技術を、車内でAmazonのAlexaを使用して、複数の乗客に対してパーソナライズされた結果を提供するビデオ・デモンストレーションです。

Kardomeは、位置情報に基づく音声クラスタリングにより、音声アシスタントの新たな可能性を引き出します。

Kardome社の位置情報に基づくスピーチクラスター化技術を、車内でAmazonのAlexaを使用して、複数の乗客に対してパーソナライズされた結果を提供するビデオ・デモンストレーションです。

ダニエル・チェルカスキー博士
ダニエル・チェルカスキー博士
CEO、共同設立者
製品アップデート

目次

Kardomeを使った音声アシスタント体験のパーソナライズのデモ映像

深層学習や人工知能(AI)技術を音声アプリケーションに実装して見事に成功したことで、音声ユーザーインターフェース(VUI)や音声アシスタントが日常生活に浸透してきました。 

仮想アシスタントは、新しい体験を生み出す機会を提供します。キッチン、車、ショッピングモール、空港など、あらゆる環境に音声対応機器が導入されています。

しかし、これらの環境の多くは音響的に複雑であるため、自動音声認識(ASR)の性能向上が求められています。

現在、ASRは、話し手の声を聞いて理解しようとする聴覚的な競争があるシナリオではパフォーマンスが低下します。 

聴覚的な競合問題に対処するために広く用いられている手法は、マイクを音源の特定の方向に向けて誘導するビームフォーミングです。 

残念ながら、屋内や閉鎖された環境では、音は視線だけでなく、環境内のあらゆる反射面にぶつかり、音がデバイスに跳ね返ってきます。 

この現象は、一般的に残響やマルチパスと呼ばれています。

ビームフォーミングを用いた音源分離は、車内、オフィス、リビングルームなどの室内や閉鎖された環境など、残響の多い環境ではパフォーマンスが低下します。 

Kardomeの技術は、このデメリットをメリットに変えることで、この問題を解決します。つまり、Kardomeはマルチパス・パターンを利用して、音声ソースを識別するのです。この方法は、単一方向全方向を立体的に聴くことで実現しました。

以下の動画は、Amazonの仮想アシスタントAlexaを車内で使用した場合と、Kardomeの位置情報に基づく音声クラスタリングを使用した場合を比較したものです。このシステムは、利用可能なCPUパワーの約20%を使用するARM Cortex A7に実装しました。 

位置情報を利用した音声分離アプローチにより、個人のアカウント、好み、履歴を利用してAlexaを各人に個別に反応させることで、車内の複数の乗客に対してパーソナライズされたユーザー体験を提供できることを示します。 

このデモでは、Kardomeの定位、音源分離、ノイズリダクションのアルゴリズムをベースにしています。

2人の乗客がAlexaに異なる質問をする。Kardomeはそれぞれのリクエストを特定のユーザーに帰属させ、Alexaはそれに応じて反応します。

このデモでは、後部座席からの問い合わせにはAlexaがスペイン語で応答し、運転手からの問い合わせにはAlexaが英語で応答するように設定しました。Kardome独自のアプリケーションの一例として言語パーソナライゼーションを使用しています。 

ビデオを見る

カルドメのVUI技術についてご紹介します。デモを予約する