OpenAIの親会社です。チャットGPTは、最新の画像生成モデルである DALL-E 3 の初の公式パブリック プレビューを公開しました。記者向けの小規模なイベントで水曜日に公開されたDALL-E 3は、複雑なテキストプロンプトを完全に理解し、複雑さに応じて画像を生成するツールとして売り込まれている。
として新しい情報ページOpenAI Web サイトの DALL-E 3 については、次のように述べられています。「現代のテキストから画像への変換システムは、単語や説明を無視する傾向があり、ユーザーは迅速なエンジニアリングを学ぶ必要があります。DALL-E 3 は、画像を生成する能力における飛躍的な進歩を表しています。提供されたテキストを正確に遵守してください。」
DALL-E 3 の進行中のバージョンからの可能性のある画像は次のとおりです。Discordに流出したこの夏の初めに、それらはプレスプレビューで描かれた線に沿って大きな可能性を示しました。リーカーは、DALL-E 3 に長いプロンプトを与えたと主張しました。自転車競技中にパンダにハイタッチするピンクの道化師の絵。自転車はチーズでできていて、地面はとてもぬかるんでいます。彼らは霧の森の中を運転しています。パンダが怒ってるよ。」出来上がった画像は、その要求に対する忠実さは実に驚くべきものである。
マッシュ可能な光の速度
Midjourney や Stable Diffusion などの画像ジェネレーターは、フォトリアリズムを模倣し、幅広いオブジェクト、スタイル、人物の表現を生成できます (彼らに付随する少量の論争)これほど複雑なものを作成するのは間違いなく困難でしょう。
これらの画像ジェネレーターや、この分野での OpenAI 自身の以前の製品も、テキストをフィーチャーした画像を作成するように要求された場合に不十分であることはよく知られています。通常、よく言えば文字化けしたナンセンス、最悪の場合は陽気な矛盾を生成します。 OpenAI CEO の Sam Altman 氏が X に投稿した漫画で実証されているように、DALL-E 3 は画像に一貫したテキストを組み込む能力がはるかに優れているように見えます。
ツイートは削除された可能性があります
Open AIは、DALL-E 3をChatGPTに直接統合すると述べており、プロンプトの内容に応じてチャットボットがあるモデルから別のモデルに移行することを強く示唆しています。 ChatGPT は、かつては GPT-3.5 モデルからのテキスト出力のための純粋にユーザーフレンドリーな栓でしたが、急速に進化しています。サードパーティのプラグインを組み込むWeb などの他のソースからテキストを取得する機能も備えています。この動きにより、ChatGPT の機能はさらに多様化し、すでに緊張してきた「チャットボット」という用語の定義が広がります。
Altman氏によると、DALL-E 3は「今後数週間ですべてのChatGPT+ユーザーに提供される予定だ」という。 OpenAIのWebサイトによると、ChatGPT PlusとChatGPT Enterpriseのすべての顧客は「10月初旬」に利用できるようになり、OpenAIはモデルの出力について著作権を主張しないという。ただし、DALL-E 3 で何かを生成し、自分で著作権を取得する予定がある場合は、それは全く別の虫の缶詰だ。