シームレスな音声対話体験を実現するための主なハードル
声を使った機械とのシームレスなコミュニケーションを阻んでいるものは何か?
人間と機械のコミュニケーションの未来については、多くのことが語られています。レイ・カーツワイルは著書「The Singularity Is Near」の中で、次の論理的ステップは、人間が心の中で直接機械とコミュニケーションできるようになることだと主張しています。つまり、手で操作するのではなく、声で操作し、心で操作するようになるのです。
しかし、マインドコントロールによるコミュニケーションを実現するためには、その前の段階であるボイスコントロールに関連して、人間が解決しなければならない小さなハードルがあります。
多くの技術がそうであるように、技術革新は需要から生まれるものであり、ある技術の採用率が相対的に高ければ高いほど、その効果は大きくなります。例えば、自動車産業は常に革新的な技術を生み出していますが、もし人類がまだ馬を乗り物として使っていたら、テスラは今も存在していると思いますか?そうではないと思います。同じことが、評判が悪くて採用率が相対的に低いボイスコントロールにも当てはまります。
音声技術には "ガラスの天井 "がある
では、なぜ私たちは、音声操作によるコミュニケーションをもっと一般的に利用できないのでしょうか?なぜ私たちは、音声アシスタントを限られた場面やほぼ同じ特定の目的(例えば、インフォテインメントシステムに時間を聞いたり、誰かに電話をかけたりすること)でしか使わず、日常的に使わないのでしょうか?音声制御技術の上に「ガラスの天井」があるために、導入率が下がり、音声によるコミュニケーションの幅が広がらないのはなぜか?
この質問に対する答えは簡単で、「信頼」です。信頼にはいくつかの意味がありますが、ここでは私が最も重要だと考えるものに焦点を当てます。一般的な音響条件で音声ユーザーインターフェースに話しかけようとすると、全体的にいらいらさせられます。音声ユーザーインターフェースが適切に「仕事をして」、期待通りに行動してくれると信頼できる段階に達していないのです。
早速ですが、あなたは窓を開けて運転しているときや、ラジオをかけているときに、AlexaやSiriに電話をかけてもらいますか?ほとんどの場合、電話をかけようとする前に、直感的に静かな環境を保ち、その上で音声アシスタントに話しかけるでしょう。これが "摩擦 "です。"摩擦 "は "信頼 "につながり、"信頼 "は "需要 "につながるのです。
音声コマンドソリューションを広く普及させるためには、人間があらゆる環境で音声ユーザーインターフェースと快適にコミュニケーションでき、機械が言われたとおりに動くことを確信できる必要があります。これは前提条件に他なりません。
もう少し具体的に教えてください。
音声認識プロセスにおいて、最も初期段階で重要なコンポーネントの一つが「オーディオフロントエンド」であり、自動音声認識(ASR)エンジンに高品質な信号を提供する役割を担っています。現在のところ、ASRが話し手の音声信号を適切にテキストに変換する能力は、音声がキャプチャされた空間の音響条件に大きく影響されます。妨害される周囲の環境や音声信号が少なければ少ないほど、変換結果は良くなります。
今日、ほとんどの企業は、従来のオーディオフロントエンドのビームフォーミングインフラを使用してこのハードルに取り組もうとしていますが、これでは、環境ノイズや競合する話者によって目的の音声が損なわれる一般的な状況下で、高品質の音声信号をASRに提供することができません。
人間のような例...
人間が騒がしい喫茶店で会話をすることができるのは、背景音と複数の話し手が混在する複雑な音響シーンを、それぞれが単一の音声で構成される単純なシーンにクラスタリングする能力があるからです。クラスタリングにより、脳は1つのシーンに集中し、他のシーンを無視することができます。音声フロントエンド技術も同様に、取得した混合音声信号を個々の音声成分にクラスタリングし、ASRに個々の音声成分に個別に焦点を当てる機能を提供しなければなりません。
このようなクラスタリング機能は、音響シナリオを正確にモデル化することができず、期待通りの性能を発揮できない単純なビームフォーミングと比較して、より洗練された音源分離アルゴリズムを適用することで実現できます。
ブレイクスルー」を見つけて、人類をシームレスな音声コマンドの時代に導くことができずにいるのも不思議ではありません(皆さん、想像力だけでピザを注文したいとは思いませんか?)。この課題を克服するためには、数十年前の技術では期待できないため、大きな変化が必要です。
誤解しないでいただきたいのは、STIやNLPなど、音声認識プロセス全体の他の構成要素が、人間らしいシームレスな体験を成功させるために重要ではないということではなく、むしろ音声認識プロセスを、他のすべての要素を支える最も基本的な基盤として捉えてほしいということです。簡単に言えば、基礎が弱ければ他のすべてが崩壊するということです。
要約すると
話者の周囲の音響条件を気にせず、シームレスな音声コントロールを実現することは、現在の音声技術企業にとって最大の関心事です。
実現すれば、人類は音声コントロールアプリケーションの指数関数的な増加を経験し、音声コントロールが提供する素晴らしい価値提案の恩恵を受け、おそらく次の課題への道を切り開くことになるでしょう。