最近の研究では、Kardomeの音声ユーザーインターフェース技術は、厳しい音響条件下で90%以上の精度を達成したことが示されています。

Kardomeが標準的な音声認識アルゴリズムを凌駕することを示す新しい研究結果

最近の研究では、Kardomeの音声ユーザーインターフェース技術は、厳しい音響条件下で90%以上の精度を達成したことが示されています。

ローラ・テイト
ローラ・テイト
VPマーケティング
製品アップデート

目次

調査票のダウンロードはこちら

自動音声認識(ASR)システムの性能には、背景雑音や残響、エコー、話者との距離など、多くの要因が影響します。

競争力を維持するために、音声対応機器メーカーやOEM(相手先ブランド製造)はこれらの課題を克服する必要があります。

Kardome社の音声認識強化技術は、音声・音声認識デバイスをより高い精度で動作させるためのソフトウェアベースのソリューションである。最先端の信号処理技術を活用し、ノイズの多い環境や遠距離でも優れたパフォーマンスを実現します。

この技術の重要な要素は、一人の話者の音声を他の音声や周囲の雑音から分離し、そこに焦点を合わせて高精度のASRを行うことである。

私たちの音声認識技術の精度を、他の商用技術と比較して示すために、実環境での偏りのない研究を行いました。

当社のエンジニアチームは、AlexaやGoogle Homeに採用されているような標準的な音声認識アルゴリズムと比較して、さまざまな環境下でのKardomeのパフォーマンスを分析しました。

私たちは研究の一環として、一般的なリビングルームの環境に置かれたスマートスピーカーを使ってこの研究を行いました。スマートスピーカーのASRシステムが、さまざまなシミュレーションシナリオでどの程度の性能を発揮するのかを確認したかったのです。

テレビ、キッチン(ミキサー、水、料理)、扇風機、掃除機、バブリングノイズ(複数のスピーカーでの会話)など、さまざまな環境音をスピーカーで再生しました。それぞれの音を様々な音量で再生し、異なるS/N比の条件下でASRの精度を評価することができました。

Kardomeのエンジニアは、スマートスピーカーのASR性能をテストするために、以下の業界標準の指標を使用しました。

  • ウェイクワード誤検出率(FRR)。ウェイクワードが存在するときに、システムがそれを検出しない割合。
  • ウェイクワード誤警報率(FAR)。ウェイクワードが存在しないにもかかわらず、システムがウェイクワードを検出する割合。
  • 応答精度。コマンドを正常に実行できた割合。

以下は、その結果のサマリーです。

  • Kardomeは、ウェークワードFRRの検出テストで90%以上の精度を達成しました。
  • Kardomeは、ノイズレベルが高い条件を含むすべての環境において、標準的なアルゴリズムを60%から80%上回った。
  • Kardomeの応答精度は標準アルゴリズムを80%上回っている 

Kardomeの技術は、最先端の音声認識技術を進化させています。世界がよりリスナーベースのコミュニケーションモデルに移行する中、正確な転写と理解のために、より優れた音声認識技術が不可欠です。


お問い合わせKardomeのVUI技術についてもっと知るために

調査結果のダウンロードはこちら