音声認識技術の2020年への挑戦、未来への可能性
2020年、音声認識業界は多くの課題に直面しました。2021年以降、あらゆる分野でVUIが改善されることを期待しています。
控えめに言っても、この1年は私たち世界のすべての人にとって挑戦的な年でした。COVID-19は私たちの生活を一変させ、仕事やコミュニケーション、社会生活のあり方を根本的に変えました。これらの変化は、理想的とは言えない環境でもクリアで明瞭な音声認識を提供できる音声技術サービスへの急激な需要を引き起こしました。パンデミックとの戦いが続く中、私たちは仕事、教育、社会的ニーズを満たすために最適な音声技術を実現することにも苦労しています。
この記事では、音声認識デバイスの需要の増加により、すでに存在していた音声技術の課題が浮き彫りになり、その課題を克服するために何が必要かを見ています。また、将来を見据えて、2021年以降の音声技術の進化の可能性を探ります。
バックグラウンドノイズのあるオーディオ/ビデオ会議
パンデミックとそれに伴う自宅待機の影響で、VUI(ボイス・ユーザー・インターフェース)機器を使用する消費者が直面していた問題は、すでに大きくなっていました。
両親が自宅でZoom通話をしている間に、子供たちが別々の音声会議デバイスを使って学習しようとしているときに、全員が話して理解されようとすることは、2020年の音声技術の課題として多くの人が挙げるでしょう。
同じ家庭でも周囲の環境でも、ビデオ会議や音声会議をしているとき、あるいは車内や携帯電話、デジタル音声アシスタントと会話しているときなど、複数のスピーカーの音や雑音がコミュニケーションの妨げになります。
信頼できる音声ユーザーインタラクション体験を提供するためには、正確な音声認識技術と音声拡張技術が必要です。音声対応機器を製造し、既存の技術を補完するVUI技術を統合する企業は、音声技術を採用するすべての産業で優位に立つことができるでしょう。
音声認識・音声アシスタント機器
パンデミックで大打撃を受けた後、音声アシスタントの導入が急増しましたが、特にスマートフォンのデジタルアシスタントでは、ユーザーの不満が常に問題となっていました。PricewaterhouseCooper社が行った調査では、調査対象者の62%が「理解できない」「信頼性がない」「正確性がない」などの不満を表明しています。
しかし、特に家庭での学習環境においては、音声認識技術を使用する際に、子どもたちが最も困難に遭遇する可能性があります。
音声認識機器は、子どもを想定して設計されたものではありません。子供の声、言語 、そしてしばしば見られる不安定な行動は、大人よりもはるかに複雑です。構文、文法、発音はもちろんのこと、子どもの話し方、言語構造、声の高さ(年齢によって劇的に変化する)などの変数を、音声認識装置は考慮しなければなりません。大人であれば、よりはっきりと話したり、声のトーンや言い回しを変えたりすることで要求を修正することができますが、子ども、特に小さな子どもは、デジタル音声アシスタントからエラーメッセージや間違った回答を受け取ることが多くなります。
これらの問題に加えて、自宅で学校に通っているときの周囲の騒音の問題もあるため、子どもたちは音声対応機器でのコミュニケーションをあきらめてしまいます。さらに悪いことに、意図したメッセージを理解できなかった機械によって、自分が正しいのに間違っていると言われた子どもは、自信を失ってしまいます。逆の場合も同様に有害です。子どもが間違った答えを正しいと言われたときに、誤った答えを与えることは、社会的・情緒的な被害をもたらす危険性があります。
ボイスユーザーインターフェースデザイナーの課題は、子どもの話し方を学習し、それに適応する音声認識技術を開発することです。
信頼感の欠如とプライバシー問題
パンデミックの影響で、2020年にはオンラインショッピングが急増し、この成長は今後も続くと予想されています。小売業者は、3月以降、Eコマースの売上高が30%から40%増加しています。しかし、オンラインショッピングのさらなる成長には、信頼性の欠如が大きな阻害要因となっています。PwCによると、消費者の4人に1人が、現在も将来も音声アシスタントを使って買い物をすることを検討しないと答えています。また、調査対象の46%が、音声アシスタントが注文を正しく処理することを信用していないと答えています。また、音声アシスタントを使ってオンラインで決済することへの不信感も、これらのデバイスの利用を妨げる要因となっています。
また、プライバシーの問題も、音声対応機器の導入を決定づける要因となっています。VUIデバイスを教室で使用することのメリットを評価する教師がいる一方で、多くの学区では、児童オンラインプライバシー保護法への準拠を懸念して、音声技術の導入を拒否しています。
また、銀行や金融機関ではデータの安全性を確保するために、あるいは特定の情報を意図しない人に聞かれないようにするために、プライバシーの問題は他の分野でもあります。
音声技術企業がこれらの市場でさらに前進するためには、これらの懸念に対処する必要があります。音声を正確に聞き取り、音声認識システムが処理する情報の流れを緩やかにするようなVUIデザインが有効です。
タッチレススクリーン
コロナウイルスは、画面をはじめとする日常生活で触れるものへの意識に大きな影響を与えています。食料品店から銀行のATM、空港のキオスクやエレベーターのボタンまで、衛生面が前面に出てくるようになりました。
これらの地域では、音声制御技術を導入しているところもありますが、多くは時代に追いつく必要があります。また、すでに音声認識・制御を採用しているところも、騒音下では機能が制限されることがあります。
"未来 "は明確でシンプル。身の回りのボタンはなくなります。リモコン、キーボード、照明のスイッチ、タッチスクリーン、すべてが歴史に残るでしょう。
VUIは、発音された指示を解読する役割を担うSpeech-to-Text技術の信頼性の低さの犠牲になっています。背景雑音を低減し、同時に明瞭な音声認識を実現するボイスエンハンスメント技術は、インタラクティブな画面を提供するすべての産業に必要です。
音声認識技術の将来性について
Zoomのようなプラットフォームを利用したり、デジタルアシスタントにディクテーションしたり、オンラインの音声トランスクリプションサービスを利用したりするためには、特にこのパンデミックの間、音声拡張技術が不可欠ですが、音声認識がすでに大幅に改善されている分野は他にもたくさんあります。
人間中心のアプローチ
音声ユーザーインターフェースや音声認識機能における多くの課題を解決するには、より人間中心の技術を設計することです。
最高レベルでは、インターフェイスは厳格ではなく、また「機械主導」ではなく、人間中心になるべきであり、人間は厳格な揺るぎない言語法則を使わずに、自然に機械と対話できるようになる。
このような人間中心のアプローチは、子どもたちが音声認識デバイスと接する際の問題を解決する可能性があります。さらに、グーグルやアマゾンなどの企業は、より深い会話スキルや、人の感情を声で判別する技術を開発しています。このような技術は、音声認識における予期せぬ変数の問題を解決する可能性もあります。
No More Buttons
「Kardome社の共同設立者であり、研究開発ディレクターであるAlon Slapak氏は、「未来は明確でシンプルです。 「リモコン、キーボード、照明のスイッチ、タッチスクリーン、すべてが歴史に残るでしょう。リモコンも、キーボードも、電気のスイッチも、タッチスクリーンも、すべてが過去のものになります。自分のスマートフォンを見て、ほんの10年前に使っていたボタンやキーボードを思い出してみてください。あなたのタッチは、あなたの愛する人に授けられます。"
最新のMEMSマイクロフォンよりも製造コストが高いスイッチ、ストーク、ボタン、タッチスクリーンを排除することは、間違いなく、音声技術における費用対効果の高い進歩であり、多くの民間および公共のビジネス分野に有益な影響を与えることができます。
機械学習と人工知能
機械学習、人工知能(AI)、そしてAIに供給されるデータは、音声認識の向上を促進する重要な要素です。
機械学習は、音声技術の要であり、AIを提供する増え続けるデータは、AIと、AIを採用する機械をより賢くしています。音声のAIは、経験から学び、傾向を特定し、答えを提供するように作られています。
最近のエピソードでは ボイストーク Tada Labs社のCEOであるLeslie Pound氏は、「リアルクエリーデータに接続された音声」が音声技術の未来であると予測しています。
パウンドは、「データとの関連性が高まるだろう」と述べています。「データは毎年倍増しています。データは、照明、電話、車から送られてきます。私たちは、データとデータベースのインフラ全体を持っており、人々がそのインフラとますます統合されていくでしょう」。
スピーカーの検証も含めた個別の体験
また、音声認識デバイスを使ったインタラクションもよりパーソナライズされたものになるでしょう。Google Homeのようなデジタル音声アシスタントは、自分の声にだけ反応し、ニュース、天気、スケジュール、設定された音声操作に応じて厳選されたポッドキャストなど、あらかじめ決められた項目を読み上げるようにカスタマイズすることができます。
アマゾンのAlexaは、家庭内の誰に対してもパーソナライズされた回答をすることができます。Alexaの音声認識機能は時間の経過とともに賢くなり、パーソナライズされた回答の正確さが増していきます。
わずか3年の間に1万件から10 万件以上に急増した音声認識スキルの増加により、パーソナライゼーションの可能性は今後も広がっていくでしょう。
プロアクティブ・ボイス・アシスタント
音声認識とパーソナライゼーションの次の時代は、音声アシスタントがお客様の要望を予測する能力です。AlexaのヘッドサイエンティストであるRohit Prasadが行ったAlexa Conversationsのデモでは、Alexaが夜の外出の計画を立てる際に、夜のパートごとに新しいリクエストを待つのではなく、サポートしてくれました。ユーザーは、映画のチケットを予約するように頼むなど、会話を始めるだけでよいのです。Alexaはそれを引き継いで、ディナーの予約やUberを呼びたいかどうかを尋ねてフォローします。
このようにユーザーと積極的に関わるためには、音声認識デバイスがユーザーの日常生活から得られる膨大な量のデータを聞き取り、記録するためのハードウェアとソフトウェアが必要です。さらに、週に何十億ものユーザーとのやり取りを学習することで、Alexaはどのようなスキルがよく一緒に使われているかを把握し、スキルを予測してパッケージ化し、知的にレコメンドすることができます。
遍在する音声認識の統合
未来はもうそこまで来ているように思えますが、スマートテレビ、時計、スピーカー、車の音声アシスタントなど、音声対応のスマートデバイスの増加は続いています。
また、自動車業界では、音声認識デバイスの導入が進んでいます。スマートスピーカー、音声アシスタント、音声操作可能なナビゲーションなど、いずれもより楽で安全な運転体験を提供します。キャップジェミニ・リサーチ・インスティテュートは、自動車における音声アシスタントの消費者利用率が、2022年には95%に達すると予想しています。
声で窓を開けたり、車を発進させたり、エアコンをつけたりできるようになる日も近いでしょう。スマートカーアシスタントは、運転者や同乗者などの話者と車内での位置を識別し、個人に合わせた対応をしてくれます。
そのような技術は、Kardome社で進行中です。イスラエルのテルアビブにあるルノー・日産・三菱(RNM)社のイノベーション・ラボ では、現在、Kardome社の自動車用スマート・オーディオ・ソリューションの評価が行われています。
洗練されたマイクアレイにより、バーチャルアシスタントと連携した音声対応のスマートテレビが活躍するでしょう。
ゲーム業界は、音声技術の統合に適しています。Adobe社の調査によると、スマートスピーカーを所有している人の63%がリビングルームに設置しているとのことです。このような利用状況は、ゲーム業界と音声技術の世界にとって、友人や家族のために音声を使った体験を構築する大きなチャンスとなります。すでに各社は、音声で操作できるテーブルトップゲームを提供しています。Netflixは、 Doppio Gamesとの提携により、人気SFシリーズ「3%」を題材にしたマルチプレイヤー音声操作ゲーム「The 3% Challenge」を開発しました。また、HBO、Lego、Pretzel Labなどの企業も、音声で操作できるゲームを開発しています。
Tada LabsのPoundは、音声認識技術がいくつかの重要な分野に広がっていくと考えています。
- 会議での発言
- 音声がリアルなデータにつながる
- ボイス・フォー・ビジネス・インテリジェンス
- 建設現場での声
また、医療や金融の分野でも、音声認識の導入が進んでいくと予測されています。
概要
2020年に向けて、音声認識技術業界では多くの分野でVUIへの対応と改善が急速に進んでいます。しかし、まだ多くの分野で改善が必要です。 バックグラウンドノイズ、マルチスピーカー環境、音声コマンドのインテリジェントな転写などの問題が、多くのデバイスやユーザーの音声対話体験を低下させています。今年、VUI開発者が直面した課題は、音声技術の未来を鼓舞するものとなるでしょう。
Kardomeがどのように音声インタラクション体験を向上させることができるかをご紹介します。 デモを予約する