音声認識技術が職場に与える影響
60%以上の従業員がリモートワークをしている現在、雇用主は適切なツールで従業員を強化することがこれまで以上に重要になってきています。多くの企業は、これを実現するために音声認識技術に注目しています。
音声認識技術は、多くの業界でビジネスのあり方を変えつつあります。職場も含め、音声認識が日常生活に溶け込む段階に来ているのです。
60%以上の従業員がリモートワークをしている現在、雇用主は適切なツールで従業員を強化することがこれまで以上に重要となっています。多くの企業は、これを実現するために音声認識技術に注目しています。
パンデミックによってリモートワークが増加する以前から、IT部門は職場で音声認識を主流にする準備を進めていたのです。
ガートナーのレポートによると、企業によるチャットボットや仮想パーソナルアシスタントの採用や、消費者による音声対応デバイスの利用拡大が、業務における音声テキスト化アプリケーションの統合を促進しているとのことです。
職場における音声技術の進化
音声認識技術は、比較的短期間に大きな進歩を遂げました。音声コマンドはさまざまなアプリケーションで使用されるようになりましたが、最も大きな変化の1つは、職場のソフトウェアで起こったことです。
音声認識技術の中で、最も業務に応用しやすいのが音声読み上げです。音声で文章を書くことで、長文の文書をタイプしたり、口述して後で記事を書き写したりするよりも、仕事の生産性が10倍も向上しています。
音声読み上げソフトの黎明期
1990年代初頭、ドラゴンシステムズ 社が初めて市販の音声合成ソフトを提供した。しかし、このソフトは高価で、使用者側のトレーニングも必要であった。また、このソフトはマイクロソフト社のプログラムにしか対応していなかった。
ドラゴンディクテートと呼ばれる初期のソフトは不格好で、ユーザーは単語を一つずつ発音し、間を置かなければなりませんでした。その後、Dragon NaturallySpeakingと呼ばれるようになり、連続した音声からテキストへの書き起こしが可能になった。しかし、このソフトはまだマイクロソフトと互換性のあるアプリケーションとPC向けのブラウザに限定されています。
2000年代半ばには、近所の大型店に行けば、あるいはソフトウェアをダウンロードすれば、数百円で音声認識プログラムを手に入れることができるようになりました。しかし、それでも職場で音声認識技術を使うには、最低でも30分のトレーニングが必要でした。
現在では、無料の音声認識ソフトをオンラインで簡単に入手したり、100ドル以下で購入したりすることができます。Otterのように、わずかな月額料金でサブスクリプションを提供している会社もあり、トレーニングはまったく必要ありません。
GoogleとMicrosoft、音声認識を次のレベルへ
Googleは2008年に音声検索を導入しましたが、Google Docsの音声テキスト化(STT)を提供したのは2015年になってからでした。
現在、開発者は同社のクラウドベースのAPIスピーチ技術を利用して、さまざまなビジネスアプリケーションやコンシューマーアプリケーションを作成しています。
Voximplant社は、GoogleのCloud SST APIを利用して、Hyundai、Burger King、ヨーロッパ最大級の銀行であるSberbankなどの顧客向けに音声認識ツールを構築している企業である。
マイクロソフトは、2002年の時点ですでにMicrosoft Officeなどの従来製品で音声認識機能を提供していましたが、個別に音声認識コンポーネントをインストールする必要がありました。
2009年、マイクロソフトはWindows Vista用に開発されたWindows音声認識(WSR)をリリースした。この音声認識ソフトウェアにより、ユーザーは音声でデスクトップのユーザーインターフェースを操作したり、電子メールや電子文書のテキストを書き取ることができるようになりました。また、Officeのユーザーは、音声コントロールによってWebサイトの閲覧、マウスカーソルの操作、キーボードショートカットの実行が可能になった。
マイクロソフトでは、キーボードやマウスを使わず、音声でExcelなどのアプリケーションを操作できる音声制御プログラムもアドオンで提供しています。これらのツールは、ツールバーのマイクアイコンをクリックするか、"Excel "などの「ウェイクワード」を使用することで使用できます。
興味深いことに、Googleはスプレッドシートのアプリで音声コマンドを提供していません。しかし、いくつかのブラウザの拡張機能では、Googleスプレッドシートの音声テキストコントロールを可能にしています。
大手ハイテク企業が提供する以外にも、多くのスマートデバイスには音声認識機能が統合されており、従業員はほとんどのディクテーション、ナビゲーション、検索、その他のアプリケーションで使用することができます。
また、仕事用の音声技術は、Zoom、Google Meet、GotoMeetingなどの音声・ビデオ会議プラットフォームにも発展しています。
職場における音声認識技術のメリット
新しいテクノロジーは、しばしば従業員の労働生活にプラスの影響を与えます。音声認識も例外ではありません。では、音声認識テクノロジーはどのように職場を変えることができるのでしょうか。
生産性の向上
音声認識ソフトの最大のメリットは、生産性の向上です。ユーザーは、文書、電子メールの返信、その他のテキストを、機械に手入力することなく口述することができます。
音声合成技術の利用により、ユーザーの思考とデジタル出力との間にある障壁を一つ取り除き、ビジネスプロセスの合理化、時間の節約、そして最終的には生産性の向上を実現することができるのです。
音声技術による事務処理の軽減だけでも、驚異的な時間の節約になります。平均して、従業員は 自分の時間の60%を書類の処理に費やしています。さらに、置き忘れた書類を探すのにも、従業員の時間の30%~40%が費やされています。
音声技術の支援により、従業員はそれぞれの役割においてより生産的になり、より価値の高い業務に集中できるようになります。つまり、重要な情報をより早く受け取ることができ、組織全体の効率を向上させることができるのです。
モビリティの向上
パンデミックによってリモートで働く社員が大幅に増えたとはいえ、会議などのために出張するのは以前から当たり前だった。
音声技術の進歩により、見込み客や従業員と直接会うことはなくなりました。
これらの開発により、リモートワーカーは働く場所を完全に自由に決められるようになり、どこでも仕事をこなせるようになることで、さらなる生産性の向上が期待されます。
傷害のリスクが少ない
音声認識技術は、手根管症候群などの反復性ストレス障害を持つ方のキーボード操作やマウス操作に伴う痛みを軽減することができます。また、身体的または認知的な制約によりキーボードやマウスを使用することが困難な方にも、代替手段を提供することができます。
音声認識が活きる分野
ヘルスケア
医療現場は、音声認識技術によってワークフローとパフォーマンスが大幅に改善された、最も一般的な場所のひとつと言えるかもしれません。
例えば、医師がメモを口述するスピードは、キーボード使用時の1分間に30ワードから、音声認識ソフト使用時には1 分間に150ワードと大幅に向上しています。その結果、医師や看護師は業務を最適化することができ、手書きやタイプによる診療メモの代わりに、より多くの時間を患者と過ごすことができます。その多くは、規制や請求情報のための電子医療記録(EHR)用です。
Nebraska HealthやBaptist Healthなどのヘルスケア企業は、ニュアンスのディクテーションソフトウェア Dragon Medical Oneを使用して業務を簡素化し、"負担の大きい文書作成プロセス "による燃え尽きを回避しています。
遠隔診療の場合、メールやインスタントメッセージでは対面でのコミュニケーションが失われるため、インターネット上での音声対話がその損失を補うことができるという研究結果があります。
コンテンツクリエイター
音声認識技術によって、文章を書くことがより簡単に、より速くできるようになりました。平均的な人が1分間に38~40ワード入力するのに対して、口述筆記では1分間に125~150ワードになります。音声認識を使ってメモを取ったり、口述筆記をすることで、時間を大幅に節約することができます。
特にジャーナリストは、 週に6時間も音声の書き写しに費やしているそうです。メモを書き写すAI駆動の音声テキスト化ソフトウェアにより、記者は綿密なインタビューや記事執筆に多くの時間を割くことができます。
ソーシャルメディアマーケター、ブロガー、その他のデジタルコンテンツ制作者は、音声認識ソフトウェアによって、迅速な情報検索、音声メモ、音声入力による長文コンテンツの作成が可能になります。
法律専門職
法律関係の書類も、音声認識ソフトが活躍する場面が多くあります。
また、重要な顧客との会議では、音声でメモを取りながら手紙や契約書を作成しますが、メモを箇条書きの文書に書き起こし、行動しやすい箇所を強調するAI駆動のソフトウェアを使えば、すぐに完了します。
その一例が、AIを活用したノート作成プラットフォーム「Dubber」(旧名Notiv)です。このプラットフォームは、電話やビデオ会議による会議を自動的に記録し、行動や要約に書き起こします。
音声認識ソフトのメリットは、法律家にとっても見逃せないものです。Censuswideによる調査では、英国で調査対象となった 法律事務所の82%が、音声認識技術への投資を計画していると回答しています。同じ調査で、音声認識テクノロジを使用していない法律専門家は、1日あたり2~4時間タイピングに費やしていることがわかりました。
音声認識の限界
音声認識技術は過去10年間で大きな進歩を遂げましたが、その利用にはまだ多くの限界があります。例えば、背景の雑音、言語やアクセントの違いなどが、正確な音声認識の障害となっています。
Monument Health 社の CIO 兼 CMIO である Stephanie Lahr 氏が Healthcare IT News に語ったところによると、音声認識は時間を節約することで患者と医師の体験を向上させることができますが、臨床のやり取りは複雑なものです。ほとんどの主要な音声技術ソフトウェアは、医師と患者の間の一般的な雑談から臨床用語を切り離すことができません。
安全性やプライバシーに関する懸念は、特に医療や法律の専門家においては、大きな懸案事項です。例えば、クラウドに保管されたデータは、ハッカーに機密情報を露呈するかもしれません。また、音声詐欺は最近の銀行強盗に見られるように、大きな問題です。
音声認識を統合する機器メーカーは、職場における利用を促進するために、ソフトウェアが高い精度、最先端の技術、安全な音声コントロールを提供するための音声識別機能を提供することを保証しなければなりません。
結論から言うと
生産性の向上やコミュニケーションの効率化につながる音声認識技術が、これからの職場で活用されています。企業では、このソフトウェアの効果を実感し、その利用を増やしており、さらなるイノベーションが期待されます。
しかし、音声認識で作業する人の安全・安心は最優先されます。しかし、この技術によって、従業員がほぼどこからでもコミュニケーションをとり、ビジネスを行うことができるようになり、職場の革新に貢献することができます。
ビジネスの未来は大きく変わりつつあり、音声認識もその先頭を走っています。