と話すアレクサ一方的なことが多すぎる。確かに、デジタル アシスタントの主な目的は次のとおりです。聞くしかし、その反応は寒い効率を優先する傾向があります - 乗り込んでから外へ。もし人間があなたに同じように話しかけてきたら、あなたを黙らせて放っておいてもらうために受動的攻撃的であると考えるでしょう。
この力学は実用主義の観点からは理にかなっていますが、すべてのデジタル アシスタント (Siri、Google アシスタントなど) の定められた目標、つまり会話言語に反します。
デジタル アシスタントの有用性を次のレベルに引き上げるには、単なる言葉以上のものを理解する必要があります。文脈だけでなく、話者の気分や性格さえも考慮に入れる必要があります。
関連項目:
ほとんどのデジタル アシスタントは AI を使用してコンテキストをある程度理解するため、フォローアップのクエリに応答できます。 Google 音声検索はフォローアップの質問に応答できるようになりました少なくとも2013年以降。 「英国の首相は誰ですか?」と尋ねることができます。 Google がテリーザ メイだと言うと、「彼女はいつ生まれたの?」とフォローアップできます。メイが 1956 年 10 月 1 日に生まれたことがわかります。
ただし、この種のコンテキスト認識は、通常、いくつかの追加クエリを超えると持続しません。また、実際の人間の会話では、両者が同時に聞いたり話したりすることがよくあります。誰かにIRLに返信している場合、常に相手の表情を読んで調整する必要があります。時々口を挟むこともあるので、相手も観察しており、そのような瞬間に対応できるよう準備していることが重要です。
次のフロンティア
デジタル アシスタントは、今日の通常の会話で発生する微妙な事柄すべてが非常に苦手です。しかしマイクロソフトこっそり抜け出した最近の発表それは私たちに未来への希望を与えてくれます。同社は、「全二重化」、つまり、話すことと聞くことを同時にできる AI 駆動のアシスタントと口頭で会話できる機能を導入することによって、会話型 AI で大きな飛躍を遂げたと主張しています。
自動アシスタントプラットフォーム「アシスト」のシェーン・マック最高経営責任者(CEO)は「これは最大の取引だ」とマッシャブルに語った。「これは『理解できない』問題の解決策だ。このようにして、聞くという行為が理解になるのです。 (デジタルアシスタントが)このようなことを始めたら、人々は『なんてことだ、それが私が望んでいることだ』と言うでしょう。」
「アレクサ」や「コルタナ」というウェイクワードを何度も言う必要がなくなるのは確かに便利ですが、アシスタントが実際に話の内容を聞いているときの予測を再設定する必要があることも意味します。ウェイクワードをスキャンするために音声をバッファリングするだけではありません。これによりプライバシーの方程式が変わり、ユーザーはより頻繁に話を聞かれること、つまり何らかの形式で記録されることを明確にオプトインする必要があるだろう。
マッシュ可能な光の速度
「プライバシーを管理するには、顧客にコントロールを提供する必要があります」とマック氏は言います。 「結局のところ、プライバシーと利便性のバランスをとる必要があります。これは誰もが望むことです。」
クレジット: マイクロソフト
しかし、完全二重化テクノロジーは、デジタル アシスタントとの対話をより自然なものにする可能性を秘めています。 AI が何か他のことに応答している最中に、さらに指示を発声できるようになります。たとえば、メールを読み返している最中に照明を暗くするように指示することができます。
それは必ずしも会話がより失礼であることを意味するものではなく、より人間的であるというだけです。話している相手が長い悪口を言い始めた瞬間に何かを思い出したことが何回ありますか? 「ちょっと待ってください」は通常、気分を害することなく機能し、理論的には全二重化が可能なアシスタントで機能します。
Microsoft AI 担当シニア コミュニケーション マネージャーの Kiesha Clayton 氏は、「これが (デジタル アシスタント) 分野全体が向かっている方向であることはわかっています。」と述べています。 「ワントリガーターンの会話ではなく、この全二重のマルチターン会話でチャットを続けることができ、ウェイクワードは必要ありません。」
中国が先頭に立って
完全二重化は米国の主要なアシスタントでは利用できず、この分野における Microsoft の代表格である Cortana でも利用できません。 (Google、Apple、Amazon はこの記事へのコメントを拒否しましたが、現時点でどのアシスタントも完全二重化を提供していないことは明らかです。) Microsoft はこの技術を XiaoIce (シャオアイスと発音) と呼ばれる「コンパニオンシップ」チャットボットにのみ適用しています。 Microsoft が 2014 年に導入したチャットボットは、アジアで非常に人気があります。
「Xiaoice はニュース ステーションで天気を伝え、詩を読み、歌を歌います」とクレイトンは説明します。 「中国では、これらのボットによる未来を私たちが考えられることで、彼らがまさに先頭に立っているのです。」
おかげでMicrosoftとXiaomiの提携, XiaoIceは現在いくつかのスマートホームデバイスに搭載されており、チャットボットのユーザー数は2億人以上と言われています。 Microsoftによれば、そのうちの少なくとも1人はXiaoIceと4時間以上会話し、個別に口頭でのやり取りは1,600回を超えたという。
それは、おしゃべりなキャシーのひとりです。Alexa と Siri の言語帯域幅の大部分を占める機械的な天気情報やタイマー設定を考慮すると、このようなラップ セッションはほとんど考えられません。
フォレスター・リサーチの主席アナリスト、マイケル・フェイスマイア氏は「現時点では、チャットボットは会話を可能にするものよりも、留守番電話としての役割の方が優れている」と語る。 「ほとんどのチャットボットでは、1 つの質問をすると、1 つの回答が返されます。[完全二重化] を長期的に実現することが非常に重要です。」
それでも、XiaoIce の回答がどれほど個人的で有益であるかをトランスクリプトなしで評価するのは困難です。そして、本当のことを言うと、チャットボットに関する Microsoft の実績は、控えめに言ってもまちまちです。インターネットがその Twitter ボットである Tay を訓練することを誤って許可してしまいました。人種差別的なゴミを繰り返す、そしてその新しい取り組み、このようなは、思慮深い対応で世界に火をつけているわけではありません。それとの私の会話の抜粋をチェックしてください。
言い換えれば、全二重化は会話を生み出すための優れたツールですが、会話を推進する AI には明らかに改善が必要です。それでも、私たちが夢見る半全能のスタートレックコンピューターを本当に実現しようとしているのであれば、すべてのデジタルアシスタントが会話中に聞く能力を習得する必要があるでしょう。そして今回、Microsoft が会話を主導できるようになります。