TikTok親会社の ByteDance は、他の主要な Web クローラーよりもはるかに速く、大量の Web データを蓄積しています。
ByteDance は独自の LLM のリリースを計画している可能性があり、Web クローラー「Bytespider」を積極的に使用してモデルをトレーニングするためのデータを収集しています。運報告した。
Bytespider は 4 月に登場し、それ以来、その消費速度は OpenAI、Google、Meta、Anthropic の Web スクレイパー顔負けです。
マッシュ可能な光の速度
ボット管理を専門とする企業 Kasada の CEO である Sam Crowther 氏は、Bytespider のスクレイピング レートは OpenAI の GPTbot の 25 倍、Anthropic の Claude LLM 用 Web クローラーである ClaudeBot の 3,000 倍であると同メディアに語った。クラウザー氏はまた、カサダ氏のデータでは、過去6週間でバイトスパイダーによる「スクレイピング活動の大幅な急増」が見られたとも述べた。
Bytespider がウェブを貪欲に消費する中、米国政府は米国のユーザー データが中国政府にアクセスされる可能性を阻止しようとしています。 4月にはバイデン大統領が法案に署名したTikTokがByteDanceによって年内に売却されない限り、TikTokの禁止を強制する。 ByteDance が TikTok を販売するために時を刻んでいることを考えると、その緊迫感は、LLM のためなのか、より優れたアルゴリズムのためなのか、それとも他の何かのためなのかはわかりませんが、Web クローリング活動の膨大な速度と一致しています。
ByteDance が新たにマイニングしたデータすべてをどうするつもりなのかは、まだ分からない。しかし、TikTokはプラットフォーム向けにAIを活用した機能をいくつか立ち上げた。 5月には、広告主が作成するための一連のツールを発表した。AIが生成した広告、 そしてAIが生成したアバターブランドやクリエイターにとって。 TikTokはまた、内部検索エンジン、AI を活用した結果が表示されます (おそらく ChatGPT を使用)。