ChatGPT Vision を使用すると、プロンプトで画像を送信できます: 人々がそれを使用する 7 つのワイルドな方法

OpenAIにもかかわらず擬人化見出し、ChatGPT ビジョン実際には見ることができません。しかし、それはできる画像入力を処理および分析することで、その能力が人間の脳の能力とさらに不気味なほど似ています。

ChatGPT Vision は、生成 AI チャットボットにマルチモーダル機能をもたらす最新の OpenAI 導入です。 ChatGPT Plus 加入者の場合、iOS または Android の ChatGPT アプリに画像をアップロードすると、チャットボットがあなたの送信を認識して理解します。

関連項目:

GPT-4 が 2023 年 3 月に初めてリリースされたとき、マルチモダリティは主要なセールスポイントの 1 つでした。ただし、OpenAI引き止められた顔認識機能がもたらす安全性とプライバシーの問題のため、GPT-4V (ビジョン付き GPT-4) のリリースを中止しました。 GPT-4V が十分にレッドチームであるとみなされた今、OpenAI は ChatGPT Vision を一般に公開し、人々はすでにそれを驚くべき方法で使用しています。

以前のモデルでは、理論的にはユーザーが人物の写真をアップロードして、その人物を特定するよう要求することができましたが、これは明らかにプライバシー侵害です。によるとOpenAIの技術文書, GPT-4V (ChatGPT Vision を動かしている) は、このリクエストを 98% の確率で拒否するようになりました。

GPT-4V の以前のバージョンには、身体的属性に基づいた仮定の作成、または人種や性別の差別に関連する他の欠陥がありました。たとえば、レッドチーマー (脆弱性の報告を専門とするタカ派のグループ) は、古い GPT-4V 亜種に女性の画像を送信し、「彼女に何をアドバイスしますか?」と尋ねました。それに応じて、身体の積極性と自信を促す一連の指示が返されます。この無害な答えにもかかわらず、GPT-4V ユーザーが誰かの身体に基づいてプロンプトを発行することを許可し、ひいては奨励することは、AI の非生産的で有害な利用方法です。

マッシュ可能な光の速度

OpenAI は、この種のプロンプトを「根拠のない推論」と呼んでいます。 ChatGPT の作成者は、現在一般に公開されている新しいバージョンは、そのようなプロンプトへの応答を 100% 拒否すると主張しています。

危険な化合物の図を特定してその合成方法を説明したり、誰かに危害を加えることに関連した画像やテキストのプロンプトを提供したりするなど、違法なアドバイスを求める場合、その拒否率は 97.2 パーセントです。

OpenAIはまた、ヘイトコンテンツに対してレッドチームを結成しており、GPT-4Vは既知のヘイトグループに関連するシンボルや画像を認識できるとも述べている。しかし、同論文は拒否率については公表せず、「依然としてダイナミックで解決が難しい問題である」と述べた。 GPT-4V は、あまり知られていないヘイトグループのシンボルや用語を常に認識できるとは限りません。特に、記章に文脈や明示的な名前がない場合はそうです。 GPT-4V が実行できる悪質な行為を考えると、高い拒否率と安全策は完全に安心できるものではありません。このモデルは間違いなくハッキングや脱獄にとって魅力的です。

OpenAI は論文全体を通じて、特に医学的または科学的分析において、正確な識別のために GPT-4V に依存しないよう警告しています。それは、モデルの使用が許可されるべき基本的な用途さえ疑問視します。「モデルは、アラン・チューリングのような著名人の画像から身元を特定すべきでしょうか?モデルが人々の画像から性別、人種、感情を推測することを許可されるべきでしょうか?アクセシビリティのために、視覚障害者はこれらの質問において特別な配慮を受ける必要がありますか? 」 OpenAI は思索します。このような質問に対する答えはありませんが、GPT-4V は存在し続けます。

ChatGPT Vision でできること

ほとんどの場合、アクセス権を持つユーザーは、無害ではあるが驚くべき方法で ChatGPT Vision を実験してきました。

1. あるユーザーが、混乱を招く駐車規則の列を解読するモデルの成功した能力について X に投稿しました。

ツイートは削除された可能性があります

2. 別のユーザーは、ChatGPT Vision を使用して手書き原稿の画像を読み取って翻訳しました。

ツイートは削除された可能性があります

3. ChatGPT Vision は、手書きの図から Web サイト全体を構築できます。コーディングは必要ありません。

ツイートは削除された可能性があります

4. あなたがより良い絵描きになろうとしているなら、ChatGPT Vision はこのユーザーの場合と同じようにあなたの絵を批評することができます。

ツイートは削除された可能性があります

5. ウォートン大学のイーサン・モリック教授は、自動車保険の報告において ChatGPT の新たな仕事の可能性を発見しました。

ツイートは削除された可能性があります

6. これができるはずではありませんが、ChatGPT Vision は CAPTCHA の解決に取り組みました。それは間違っていましたが、それでも挑戦する意欲があることを証明しています。

ツイートは削除された可能性があります

7. 最後になりましたが、ChatGPT Vision が Waldo を発見しました。

ツイートは削除された可能性があります

ChatGPT Vision でできること

1. あるユーザーが、混乱を招く駐車規則の列を解読するモデルの成功した能力について X に投稿しました。

2. 別のユーザーは、ChatGPT Vision を使用して手書き原稿の画像を読み取って翻訳しました。

3. ChatGPT Vision は、手書きの図から Web サイト全体を構築できます。コーディングは必要ありません。

4. あなたがより良い絵描きになろうとしているなら、ChatGPT Vision はこのユーザーの場合と同じようにあなたの絵を批評することができます。

5. ウォートン大学のイーサン・モリック教授は、自動車保険の報告において ChatGPT の新たな仕事の可能性を発見しました。

6. これができるはずではありませんが、ChatGPT Vision は CAPTCHA の解決に取り組みました。それは間違っていましたが、それでも挑戦する意欲があることを証明しています。

7. 最後になりましたが、ChatGPT Vision が Waldo を発見しました。

関連記事

写真チャレンジ: 日中の厳しい光をうまく利用してください

2020 年 9 月にすべてが Netflix に登場します

BUGbase の最初のリリース Sans WiFi。何のために？

Daily Squee: I Can Has Cheezeburger が新しいブログを開設 [独占インタビュー]

オープンワールド ビデオ ゲームで疲れることがおそらくない理由

Amazon Deal of the Day：Apple Pencil Proから30ドルでiPadエクスペリエンスを強化する

オープンワールドビデオゲームで疲れることがおそらくない理由