Apple は生成 AI の時流に乗り出すのが遅かったように見えましたが、新たな研究文脈の理解に関連すると、Siri が ChatGPT よりも優れたものになる可能性があります。
テクノロジー巨人は隕石落下中、ひときわ静かだったChatGPTの台頭そしてその後、次のような企業からの生成 AI ツールや機能が次々と登場しました。グーグル、マイクロソフト、 そしてメタ。しかし、Apple の研究者は、Apple ファンが期待していた生成 AI アップグレードを Siri に提供できる可能性のある新しいモデルを開発しました。
「人間の発話には通常、『彼ら』や『あれ』などのあいまいな言及が含まれますが、その意味は文脈を考えれば(他の人間にとっては)明らかです」と研究者らは述べた。この論文では、画面上の参照、会話形式の参照、およびバックグラウンドの参照 (アプリやバックグラウンドで実行される機能)を実現し、「音声アシスタントでの真のハンズフリー体験」を実現することを目標としています。
ChatGPT は非常に優れており、特定の種類のコンテキスト理解に優れていますが、研究者らによると、ReALM はすべてのコンテキスト テストにおいて GPT-3.5 および GPT-4 (ChatGPT の無料および有料バージョンを強化する) よりも優れています。これが Siri にとって何を意味するかは次のとおりです。
マッシュ可能な光の速度
1. 画面上のコンテキストの手掛かり
Apple の研究者は、連絡先情報を含む Web ページの「画面上の」データを使用して ReALM をトレーニングし、モデルがスクリーンショット内のテキスト (住所や銀行口座の詳細など) を理解できるようにしました。 GPT-4は画像も理解できるが、スクリーンショットについては訓練されていないため、論文では、ReALMはAppleユーザーがSiriに助けを求める画面上の情報をよりよく理解できると主張している。
2. 会話と背景の理解
会話上の参照は、会話に関連するものを意味しますが、プロンプトで明示的に言及されていない場合があります。ビジネスのリストなどのデータで ReALM をトレーニングすると、モデルは、より具体的な指示を与えることなく、画面に表示される近くの薬局のリストを参照して「一番下の薬局に電話してください」などのプロンプトを理解できます。
ReALM は、「バックグラウンド エンティティ」を理解することができます。これは、デバイスのバックグラウンドで実行されているものを意味します。これは、音楽の再生など、「ユーザーが画面上で見ている内容や仮想エージェントとの対話の直接の一部であるとは限りません」。またはアラームが鳴ります。
3. 完全にオンデバイス
最後に重要なことですが、ReALM はオンデバイスで動作するように設計されています。LLM は多くのコンピューティング能力を必要とするため、ほとんどがクラウドベースであるため、これは大きな問題となります。代わりに、ReALM はより小規模な LLM ですが、「参照解決のタスク向けに具体的かつ明示的に微調整されています」。 Apple はこれまで、自社デバイスのセールスポイントとしてプライバシーへの取り組みを宣伝してきました。そのため、デバイス上で完全に実行される Siri の生成 AI バージョンは、非常にブランドに合ったものであり、AI 機能を備えたデバイスにとって大きな成果となるでしょう。
Appleは予想通りAI計画について口を閉ざしてきたが、CEOのティム・クックは次のように述べた。AIに関する大きな発表が期待されている今年後半に開催される Apple の Worldwide Developers Conference (WWDC) に注目が集まっています。6月10日。