Bluesky は、所有者の立場にもかかわらず、すでに最初の大規模な AI スクレイピングに直面しています。生成型 AI を決してトレーニングしないでくださいユーザーデータについて。
報告者404メディア11 月 26 日、ユーザー情報の特定を含む 100 万件の公開 Bluesky 投稿がクロールされ、AI 企業 Hugging Face にアップロードされました。このデータセットは、機械学習図書館員のダニエル・ヴァン・ストライエン氏によって作成され、言語モデルと自然言語処理の開発に加え、ソーシャルメディアのトレンド、コンテンツモデレーション、投稿パターンの一般的な分析に使用することを目的としています。ユーザーの分散型識別子 (DID) が含まれており、特定のユーザーのコンテンツを見つける検索機能もあります。
データセットの説明によると、このセットには「機械学習の研究とソーシャル メディア データの実験を目的として、Bluesky Social の Firehose API (アプリケーション プログラミング インターフェイス) から収集された 100 万件の公開投稿が含まれています。各投稿には、テキスト コンテンツ、メタデータ、メディアに関する情報が含まれています」添付ファイルと返信の関係。」
マッシュ可能な光の速度
関連項目:
Bluesky ユーザーはコンテンツのそのような使用をオプトインしていませんが、Bluesky によって明示的に禁止されているわけでもありません。このプラットフォームの Firehose API は、「投稿、いいね!、フォロー、ハンドル変更などを含む、ネットワーク内で発生するすべての公開データ更新を集約した時系列のストリーム」です。 BlueskyのAPIは、サイトが構築されているパブリックで分散型のAuthenticated Transfer(AT)プロトコルと組み合わせることで、Blueskyのコンテンツがオープンであり、プラットフォームが求愛しようとしているサードパーティ開発者が利用できることを意味すると404Mediaは説明する。
これは、サイトの何百万人もの新規ユーザーの多くにとって重大な危険信号である可能性があります。彼らの多くは、ある問題をきっかけに競合他社 X から離れました。憂慮すべき新たなAIトレーニング政策。 Blueskyの代表者は404Mediaのコメント要請に応じ、「Blueskyは、インターネット上のウェブサイトと同じように、オープンでパブリックなソーシャルネットワークである。robots.txtファイルが外部企業によるこれらのサイトのクロールを常に阻止できるわけではないのと同様、同じことがここでも当てはまる」私たちは、Bluesky ユーザーがこれに同意するかどうか、また外部組織がユーザーの同意を尊重するかどうかを外部の組織/開発者に伝える方法を見つけたいと考えており、これを実現する方法について積極的に議論しています。」
記事の公開直後、データセットは Hugging Face から削除されました。 「Blueskyデータをリポジトリから削除しました。プラットフォームのツール開発をサポートしたかったのですが、このアプローチがデータ収集における透明性と同意の原則に違反していると認識しています。この間違いをお詫びします」とvan Strien氏はフォローで書いた。 -上ブルースカイポスト。