OpenAIは、テキスト、ビジョン、オーディオを組み合わせた新しい AI モデルである GPT-4o を発表しました。
その時点で待望のライブストリームイベント, OpenAI CTO Mira Murati 氏は、GPT-4o が 1 つのモデルでテキスト、オーディオ、ビジョンを処理できると共有しました。 GPT-4o は、すべての ChatGPT ユーザーが無料で利用できます。 API でも利用でき、価格は GPT -4 Turbo の半分、速度は 2 倍です。名前の「o」は「omni」を表し、1 つのモデルに組み合わされたモダリティを指します。
GPT-4o 音声機能
発表が確認されました音声アシスタントに関する以前の噂。以前は、音声モダリティと画像モダリティに個別のモデルがありました。しかし、GPT-4o は「本質的にマルチモーダル」です。言ったOpenAI CEO のサム・アルトマン氏が X について語る。
ツイートは削除された可能性があります
現在、GPT-4o はモダリティを統合し、遅延を軽減し、リアルタイムでの応答性を高めています。つまり、モデルを中断できるということです。また、感情やトーンを感知して独自の感情やトーンを表現し、非常にドラマチックまたはロボットのように聞こえるようにすることもできます。 (望むなら)歌うこともできます。
マッシュ可能な光の速度
デモで使用されている心地よい女性の声は、映画のスカーレット・ヨハンソンの音声アシスタントのキャラクターによく似ています。彼女。
GPT-4o ビジョン機能
別のデモでは、ビジョン モダリティを使用して数学の問題を解決する GPT-4o の機能を紹介しました。 X を解くときに、基本的な数学の問題をユーザーに説明できます。画面上のコードを強調表示することで、GPT-4o を備えた ChaGPT はコードを処理して理解し、コードの改善に役立ちます。
ユーザーからの問い合わせから、GPT-4o を備えた ChatGPT はリアルタイムで翻訳し、感情を理解する能力を示しました。
ツイートは削除された可能性があります
Murati 氏は、新しいデスクトップ アプリの利用可能性を共有することでイベントを開始しました。
以前、OpenAI は、ChatGPT 検索エンジンまたは新しいトランスフォーマー モデル GPT-5 を発表する予定であると噂されていました。Google I/O。 CEOのサム・アルトマンは月曜日のイベントに先立ってこうした噂を否定したが、まだ開発中であると考えられている。