匿名化されたデータセットは冗談です。そして、新しく発表された研究が示しているように、そのジョークはたまたまあなたに当てられたものです。
クレジット カードでの購入から医療記録、オンライン閲覧履歴に至るまで、企業はあなたのあらゆる動きの記録を含む、いわゆる匿名化されたデータ セットを共有および販売しています。この情報には、名前など、あなたに直接関係する特定の詳細が削除されていると考えられています。ただし、たまたまですが、個人データを真に匿名化することは、思っているよりもはるかに困難です。
そこで、今日発表された研究日記でネイチャーコミュニケーションズ。研究者らは、彼らのモデルを使用すると、「15 の人口統計的属性を使用するデータセットでは、99.98% のアメリカ人が正しく再識別されるだろう」と判断しました。
15 個の人口統計的属性というと、1 人に関して膨大なデータのように聞こえるかもしれませんが、この研究ではこの数字を視野に入れています。
「現代のデータセットには、個人ごとに多数のポイントが含まれています」と著者らは書いています。 「たとえば、データ ブローカーの Experian は、1 億 2,000 万人のアメリカ人の世帯ごとに 248 の属性を含む匿名化されたデータセットへのアクセスを [データ サイエンスおよび分析会社] Alteryx に販売しました。」
マッシュ可能な光の速度
匿名化されたデータセットが匿名化を解除できること自体は新しいことではありません。 2018年に、DEF CONハッキングカンファレンス彼らは、ドイツ人 300 万人の明らかに匿名の閲覧履歴をどのようにして合法的かつ自由に取得できたのかを実証しました。すぐに匿名化を解除するその一部。研究者らは、たとえば、特定のドイツの裁判官のポルノ習慣を明らかにすることができた。
あれ、ああ。
この新しい研究は、まばらなデータセットから特定の人物を正確に特定するために実際に必要なデータがいかに少ないかを示しています。 「非常に不完全なデータセットにおいて、個人を高い信頼度で再識別するには、(少数の)属性で十分であることが多い」と著者らは指摘する。
その点を家に帰すために、評決報告書研究者らが発表したものオンラインツールこれにより、匿名化されているはずのデータセット内であなたを特定することがどれほど簡単になるかがわかります。
ネタバレ: 結果はご想像のとおり憂慮すべきもので、次回、企業の細字で「匿名データを第三者と共有する可能性がある」と警告する場合は、心に留めておくべきことです。