みんなに人気のチャットボットができるようになりました見て、聞いて、話して。月曜日、OpenAI は、次の新しいマルチモーダル機能を発表しました。チャットGPT。ユーザーは、ChatGPT を使用してリアルタイムで音声会話をしたり、画像を共有したりできるようになりました。
オーディオとマルチモーダル機能は、熾烈な生成 AI 競争の次の段階になりました。メタは最近リリースされましたオーディオクラフトAI と Google を使用して音楽を生成するための吟遊詩人とマイクロソフトビングどちらもチャット エクスペリエンスにマルチモーダル機能を導入しています。つい先週、Amazon はアレクサの改良版それは独自の LLM (大規模言語モデル) によって強化され、Apple でさえ AI が生成した音声を実験中です。個人の声。
音声機能は iOS と Android で利用できるようになります。 Alexa や Siri と同様に、タップして ChatGPT に話しかけると、5 つの好みの音声オプションのいずれかで話しかけてくれます。現在の音声アシスタントとは異なり、ChatGPT はより高度な LLM を利用しているため、OpenAI の GPT-4 および GPT-3.5 がテキストで作成できるのと同じタイプの会話的で創造的な応答が聞こえます。 OpenAIが発表の中で共有した例は、音声プロンプトから就寝前のストーリーを生成するというものだ。そのため、長い一日の終わりに疲れ果てた親は、創造性を ChatGPT に委託できます。
マッシュ可能な光の速度
ツイートは削除された可能性があります
マルチモーダル認識はしばらく前から予測されていたもので、現在 ChatGPT 向けにユーザーフレンドリーな方法で導入されています。いつGPT-4がリリースされました昨年 3 月、OpenAI は、画像と手書きのテキストを理解して解釈する能力を披露しました。今後は、ChatGPT を日常的に使用することになります。ユーザーは何かの画像をアップロードし、それについて ChatGPT に質問することができます。クラウドを特定したり、冷蔵庫の中身の写真に基づいて食事計画を立てたりすることができます。マルチモーダルはすべてのプラットフォームで利用可能になります。
他の生成的 AI の進歩と同様に、考慮すべき重大な倫理とプライバシーの問題があります。音声ディープフェイクのリスクを軽減するため、OpenAIは自社の音声認識技術を特定の「ボイスチャット」ユースケースにのみ使用していると述べている。また、「直接仕事をしたことがある」声優たちと一緒に制作されたという。とはいえ、今回の発表では、ボイスチャットをオプトインする際にユーザーの声をモデルのトレーニングに使用できるかどうかについては言及されていない。 ChatGPTのマルチモーダル機能について、OpenAIは「ChatGPTが常に正確であるとは限らず、これらのシステムは個人のプライバシーを尊重する必要があるため、ChatGPTが分析して人々について直接発言する能力を大幅に制限する技術的措置を講じた」と述べている。しかし、実際に不正使用が行われるかどうかは、実際に野生に放たれるまで分からない。
音声チャットと画像は、今後 2 週間以内に ChatGPT Plus と Enterprise ユーザーに公開され、「その後すぐに」すべてのユーザーに公開されます。