クレジット:
ずっと昔、はるか彼方の銀河系で、人々はすでに音声コマンドのアイデアに夢中になっていました。このテクノロジーには、オタク文化とポップカルチャーの両方に浸透してきた輝かしい歴史があります。
ルーク・スカイウォーカーと C3PO および R2D2 との音声コミュニケーションが邪悪な銀河帝国の崩壊に貢献したとき、それは音声コマンドの勝利でした。 Inspector Gadget の粗末なことで悪名高い音声起動デバイスは、このテクノロジーがいかに不十分であるかを示す例です。ターミネーター、ナイト ライダー、2001 年宇宙の旅は、大衆文化における音声コマンドの膨大な数の例の 1 つです。
音声コマンド技術が想像力を駆り立てる理由は当然です。人間と同じように考えてタスクを実行する機械は、あらゆる未来の描写や並行する技術社会に関連します。口頭によるコミュニケーションは人間のコミュニケーションの基本的な方法であるため、高度なテクノロジー社会では、人間と擬人化された機械の間にシームレスな音声コミュニケーションが存在すると考えるのが自然です。
Bell が最初の一歩を踏み出す: 音声を認識するマシン
このテクノロジーは未来的なように見えますが、トーマス・エジソンが蓄音機を発明し、アレクサンダー・グラハム・ベルと2人の同僚が「ディクタフォン」として知られるようになった製品に取り組んだ1870年代以来、人間は機械に私たちの音声を認識させようと試みてきました。
ベル研究所は今後もこの分野で重要なプレーヤーであり続けるでしょう。この研究所は長年にわたり、音声の受信、コーディング、合成、そして最終的には認識に重要な技術の研究開発に取り組んできました。
音声認識の実用的な応用例が登場
入力を認識することが最初のステップですが、真の音声コマンドを実現するには、マシンが音声を解釈して何らかの機能を実行する必要があります。音声コマンドの機能は 1970 年代に登場し始めました。ジョージア工科大学の BH Juang 教授とラトガース大学とカリフォルニア大学サンタバーバラ校のローレンス・ラビナー教授の 2 人は、2004 年に発表された「自動音声認識 -- 概要」というタイトルの記事で、1970 年代の音声コマンドの分岐点について議論しました。技術開発の歴史」。
「1970年代に音声認識研究における2つの大きな方向性が具体化し始めた。IBMとAT&Tベル研究所は本質的に、商用アプリケーションへの自動音声認識システムの適用可能性に関して2つの異なる考え方を代表していた」と論文には書かれている。
当時、IBM は話し言葉をタイプされたテキストに変換するデバイスの開発に取り組み始め、AT&T は「自動通信サービス」、つまり企業のヘルプラインに電話するときに通常対応する必要があるデジタル オペレーターを開発しました。
誰かが数学って言いましたか?
1980 年代、音声コマンドの研究は、隠れマルコフ モデル (特に単語が不規則に使用される場合) の単語認識能力を向上させるために確率を使用する複雑な統計的フレームワークを適用することで画期的な進歩を遂げました。
「徐々に、[コンピューターによる] 解釈に対応して、おそらく特定の音声をより適切に割り当てることができるこれらの洗練された数学的モデルの使用に切り替えました」と、最高技術責任者である Vlad Sejnoha 氏は述べています。ニュアンスとMashableは語る。
Nuance は、Dragon NaturallySpeaking、Dragon Dictate for Mac、医師に広く使用されている音声認識ソフトウェア Dragon Medical など、多数の音声コマンド ソフトウェア製品を製造しています。 Dragon Systems は 1980 年代初頭から音声コマンドの分野に参入しており、「テクノロジーは非常に急速に成熟しました」と Sejnoha 氏は言います。
同氏は、このテクノロジーを推進する統計システムは、ソフトウェアを使用する人が増えるにつれて堅牢になると説明しました。使用量が増えると、より多くの情報がサーバーに返され、システムに組み込むことができます。この前後の情報の流れは、隠れマルコフ モデルの主要な原則です。
音声コマンドの未来
クレジット:
音声認識と音声コマンドは過去 30 年間でかなりの勢いを増しましたが、このテクノロジーは主流に普及し始めたばかりです。確かに、専門家や技術者はしばらくの間ソフトウェアをいじってきましたが、ほとんどの人は依然としてキーボードをハックし、ボタンを介してマシンにコマンドを打ち込んでいます。今頃、私たち全員がドロイドやサイボーグに追いかけられ、洗濯物を畳んだり、冗談を聞いて笑ったりすることになるだろうと思っていたでしょう。
「真の人間の知性を機械で再現できるかどうかをめぐって、哲学的な議論が激化し続けています」とセイノハ氏は言う。 「私たちはその過程で静かな進歩を遂げているようです。私たちが構築しているシステムは、より強力で便利になりつつあります。」
IBM は 2011 年にこの進歩の印象的な展示を行い、そのスーパーコンピューターであるワトソンがゲーム番組「ジェパディ」に出場し、番組の約 50 年の歴史の中で最も偉大な人間の 2 人の出場者を抹殺しました。コンピュータが文脈を導き出し、質問の言葉の微妙な部分を解釈できるのではないかと多くの人が疑問に思っていました。 2 日間の競争の後、ワトソンは他の 2 人の出場者を合わせたよりもはるかに多くの資金を獲得しました。
「真の人間の知性を機械で再現できるかどうかをめぐって、哲学的な議論が激化し続けています。私たちはその過程で静かな進歩を遂げているようなものです。私たちが構築しているシステムはより強力で有用なものになりつつあります。」
この表示は非常に説得力があり、74 回のジェパディ優勝者であるケン・ジェニングスは、第 2 ゲームの終了時にスクリーンに最終的な答えを書き込んだ後、次のように言いました。以下のような反芻が含まれていました括弧内: 「私としては、新しいコンピューターの覇者を歓迎します。」
ジェニングスの感情は新しいものではない。言語は人間の経験の多く、特に感情や知性への入り口です。多くの SF 作家は、コンピューターに会話を教えることが、危険で破壊的な道への第一歩となるのではないかと考えてきました。 『ターミネーター』以降、ハリウッドは人間と機械が戦争するディストピア的な未来を描いた映画を数多く制作してきました。
ただし、すぐにコンピューターのプラグを抜く必要はありません。ほとんどの場合、これは単に考えるのが楽しい概念です。コンピューターが次のような恐ろしい文を発したとき、私たちは何か心配すべきことがあることがわかります。
それまで、音声コマンドは、ハリウッドだけでなく日常生活においても、話題になるのが楽しいテクノロジーであり、将来性のあるテクノロジーであり続けるでしょう。