ChatGPT の高度な音声モードにビデオ機能と画面共有機能が追加されました。
この機能は昨年 5 月にリリースされたもので、GPT-4o、ただしオーディオ モダリティのみがライブになっています。ユーザーは携帯電話のカメラを使用して ChatGPT とチャットできるようになり、モデルはユーザーが見ているものを「見る」ことができます。
ライブストリームでは、CPO の Kevin Weil と他の OpenAI チーム メンバーが、ドリップ コーヒーの作り方を支援する ChatGPT をデモしました。アクションにカメラを向けることで、AVM はコーヒーメーカーの原理を理解していることを実証し、チームに飲み物の淹れ方を説明しました。チームはまた、サンタのひげを生やしたワイルとの電話で開いたメッセージを理解することで、ChatGPT が画面共有をどのようにサポートしているかを示しました。
マッシュ可能な光の速度
待望の発表はGoogleの翌日に行われる発表されたフラッグシップモデルの次世代、Gemini 2.0。新しい Gemini 2.0 は、ビジュアルおよびオーディオ入力も処理でき、より多くのエージェント機能を備えています。つまり、ユーザーに代わって複数ステップのタスクを実行できます。 Gemini 2.0 のエージェント機能は現在、3 つの異なる名前で研究プロトタイプとして存在しています。汎用 AI アシスタント用の Project Astra、特定の AI タスク用の Project Mariner、開発者用の Project Jules です。
それに負けず劣らずの OpenAI のデモでも、ChatGPT のビジョン モダリティがどのようにオブジェクトを正確に識別し、さらには割り込み可能であるかを紹介しました。そして、はい、これにはボイスモードのサンタボイスオプションが含まれており、深くて陽気な声とたくさんの「ホーホー」が完成しました。 ChatGPT でスノーフレーク アイコンをタップすると、OpenAI バージョンのサンタとチャットできます。本物のサンタクロースが AI トレーニングに声を提供したのか、それとも OpenAI が彼の声を使用したのかについてはまだ発表されていません事前の同意なしに。
奇妙なことに、ChatGPT アプリでサンタの声を選択すると、その声は 13 歳以上のみを対象としているとユーザーに警告されます。
ツイートは削除された可能性があります
本日より、ChatGPT Plus と Pro ユーザーはビデオと画面共有を利用できるようになり、Enterprise と Edu は 1 月に利用可能になる予定です。