OpenAI は、次のような人工知能モデルを改善するために Web クローラーを開始しました。GPT-4。
呼ばれたGPTBot、システムはインターネットをくまなく調べて、AI の機能をトレーニングし、強化します。ある研究者によると、GPTBot を使用すると、精度や安全性などの面で既存の AI モデルが改善される可能性があります。OpenAI によるブログ投稿。
「GPTBot ユーザー エージェントでクロールされた Web ページは、将来のモデルを改善するために使用される可能性があり、ペイウォールへのアクセスを必要とするソース、個人を特定できる情報 (PII) を収集することが知られているソース、または当社のポリシーに違反するテキストを含むソースを削除するためにフィルタリングされます。」役職。
ただし、Web サイトは Web クローラーへのアクセスを制限し、部分的または完全にオプトアウトすることで GPTBot がサイトにアクセスできないようにすることができます。 OpenAIによると、ウェブサイト運営者は、IPアドレスやサイトのRobots.txtファイルをブロックすることで、クローラーを禁止できるという。
マッシュ可能な光の速度
以前、OpenAI は、データの収集方法や次のような点でひどい目に遭いました。著作権侵害そしてプライバシー侵害。今年の6月、AIプラットフォームが訴えられたChatGPT をトレーニングするために個人データを「盗む」ため。
そのオプトアウト機能チャット履歴を無効にするなどの機能により、アクセスできる個人データをユーザーがより詳細に制御できるようになったのは最近実装されたばかりです。
ChatGPT 3.5 および 4 はオンラインデータとテキストに関するトレーニング2021 年 9 月までの日付です。現時点では、そのデータセットからコンテンツを削除する方法はありません。
GPTBot による Web サイトのコンテンツの使用を防ぐ方法
OpenAI によると、次のことが可能です。GPTBot を禁止するこれをサイトの Robots.txt に追加します。Robots.txt は基本的に、Web クローラーに Web サイトからアクセスできるものとできないものを指示するテキスト ファイルです。
クレジット: スクリーンショット / OpenAI。
Web クローラーが使用できる部分をカスタマイズして、特定のページを許可し、その他のページを禁止することもできます。
クレジット: スクリーンショット / OpenAI。