カリフォルニア州の法律事務所は、集団訴訟トレーニングのための個人データを「盗んだ」OpenAI に対してチャットGPT。
クラークソン法律事務所は、水曜日にカリフォルニア北部地区裁判所に提出した訴状の中で、ChatGPTとDall-Eが「あらゆる年齢の子供を含む数億人のインターネットユーザーから個人情報を含む盗んだ個人情報を無断で使用している」と主張した。彼らのインフォームドコンセントまたは知識。」 OpenAI は、大規模な言語モデルをトレーニングするために、個人情報や Twitter や Reddit などのソーシャル メディア サイトからの投稿を含む 3,000 億語をインターネットから収集しました。同法律事務所は、OpenAIが「適用法で義務付けられているデータブローカーとしての登録をせずに、秘密裏にそうした行為を行った」と主張している。
OpenAI は、ChatGPT をトレーニングし、さらに開発するために、どのようなデータをどのように収集するかについて論争の的となっています。最近まで、ありましたユーザーがオプトアウトする明示的な方法がないOpenAI が会話と個人情報を使用してモデルにフィードを提供できるようにすることです。以前の ChatGPTイタリアでは当初禁止されていた、特に未成年者に関してユーザーデータを不適切に保護するために、ヨーロッパの一般データ保護規則 (GDPR) を使用します。この訴訟には以下が含まれますOpenAI の既存ユーザーに対する不透明なプライバシー ポリシーですが、ChatGPT との共有を明示的に意図していない Web から収集されたデータに主に焦点を当てています。 Microsoft からの数十億ドルの投資と ChatGPT Plus の加入者収入を通じて、OpenAI はソースを補償することなくこのデータから利益を得ています。
マッシュ可能な光の速度
訴状の15件の罪状には、プライバシーの侵害、個人データの保護を怠った過失、モデルをトレーニングするために大量の個人データを違法に取得する窃盗が含まれる。 Common Crawl、Wikipedia、Reddit などの個人情報を含むデータセットは、企業がこのデータの購入と使用に関するプロトコルに従っている限り、一般に公開されます。しかし、OpenAI は ChatGPT のコンテキストでユーザーの許可や同意なしにこのデータを使用したとされています。ソーシャル メディア サイト、ブログ、記事などで個人情報が公開されている場合でも、データが目的のプラットフォーム以外で使用される場合は、プライバシーの侵害とみなされる可能性があります。
ヨーロッパでは、GDPR 法のおかげでパブリック ドメイン データと自由に使用できるデータの間に法的な区別がありますが、米国ではまだ議論の余地があります。 Gartner のプライバシー調査担当副社長である Nader Henein 氏は、この訴訟の意見はもっともだと考えており、「人々は、データがパブリックドメインで利用可能な場合でも、自分のデータがどのように使用されるかを制御できるべきである」と述べた。しかしヘナイン氏は、米国の法制度が同意するかどうか確信が持てない。
マネージングパートナーのライアン・クラークソン氏は同社の声明でこう述べた。ブログ投稿、行政機関や司法機関が連邦規制に対応するのを待つのではなく、既存の法律に基づいて今すぐ行動することが重要です。 「ソーシャルメディアや原子力の場合のように、AIによるマイナスの結果の代償を支払う余裕はありません。社会として、私たち全員が支払う代償はあまりにも高すぎるのです。」