今日、ビッグデータは私たちが目にするあらゆるところに存在します。企業は「データサイエンティスト」の雇用に全力で取り組んでおり、プライバシー擁護派は個人データとその管理に懸念を抱いており、技術者や起業家はデータを収集、管理、収益化する新しい方法を見つけようと躍起になっている。私たちはデータが強力で貴重であることを知っています。しかし、どうやって?
この記事は、データ マイニングの仕組みと、データ マイニングに注意を払う必要がある理由を説明することを目的としています。なぜなら、データがどのように使用されているかを考えるとき、この実践の力を理解することが非常に重要だからです。データマイニングがなければ、あなたに関する情報へのアクセスを誰かに与えた場合、彼らが知っているのはあなたが伝えたことだけです。データマイニングを使用すると、彼らはあなたが話した内容を理解し、さらに多くのことを推測できるようになります。言い換えれば、データマイニングにより、企業や政府は提供された情報を使用して、あなたが思っている以上のことを明らかにすることができます。
「データマイニングにより、企業や政府はあなたが提供した情報を利用して、あなたが思っている以上のことを明らかにすることができます。」
私たちのほとんどにとって。データ マイニングは次のように行われます。大量のデータが収集され、その後、ウィザードが難解な魔法を使い、この驚くべきことをすべて知ります。でも、どうやって?そして、彼らはどのような種類のことを知ることができるのでしょうか?これが真実です。データ マイニング アルゴリズムの特定の技術的機能は非常に複雑であるという事実にもかかわらず、プロの統計学者やコンピュータ サイエンティストでない限り、データ マイニング アルゴリズムはブラック ボックスです。これらのアプローチの用途と機能は、実際には次のとおりです。非常にわかりやすく直感的です。
ほとんどの場合、データ マイニングは、非常に大規模で複雑なデータ セット、つまり小さくて単純なものについてすぐに明らかになる種類の情報について教えてくれます。たとえば、「これらのうちの 1 つは他のものとは異なります「セサミストリートのように、カテゴリーを表示して、あらかじめ決められたカテゴリーに分類することもできます。しかし、5 つのデータポイントでは単純なことは、50 億のデータポイントではそれほど単純ではありません。
そして最近では、常により多くのデータが存在します。私たちが消化できるよりもはるかに多くの情報を収集します。ほぼすべてのトランザクションややり取りでは、どこかの誰かがキャプチャして保存しているデータ署名が残されます。もちろん、これはインターネットでも当てはまります。しかし、ユビキタス コンピューティングとデジタル化により、私たちの生活はコンピューターから離れたところで現実になることが増えています (コンピューターはまだありますか?)。このデータの規模は、人間の認識能力をはるかに超えています。これらのスケールでは、パターンはあまりにも微妙であり、関係が複雑または多次元すぎるため、データを見るだけでは観察できないことがよくあります。データ マイニングは、解釈可能なパターンを検出するためにこのプロセスの一部を自動化する手段です。木々の中に迷うことなく森を見るのに役立ちます。
データから情報を発見するには、記述と予測という 2 つの主な形式があります。私たちが話している規模では、データが何を示しているかを知るのは困難です。データマイニングは、私たちが理解できる方法でデータを単純化して要約し、観察したパターンに基づいて特定のケースについて推測できるようにするために使用されます。もちろん、データ マイニング手法の特定のアプリケーションは、利用可能なデータとコンピューティング能力によって制限され、特定のニーズと目標に合わせて調整されます。ただし、いくつかの主要なタイプ一般的に使用されるパターン検出の機能。これらの一般的な形式は、データ マイニングで何ができるかを示しています。
異常検知: 大規模なデータセットでは、一般的なケースでデータがどのようになる傾向があるかを把握することができます。統計を使用して、何かがこのパターンと著しく異なるかどうかを判断できます。たとえば、IRS は典型的な納税申告書をモデル化し、異常検出を使用してこれとは異なる特定の申告書を特定し、審査や監査を行うことができます。
連想学習: これは、Amazon レコメンデーション システムを推進するタイプのデータ マイニングです。たとえば、これにより、カクテル シェーカーとカクテルのレシピ本を購入した顧客は、マティーニ グラスもよく購入することが判明する可能性があります。これらのタイプの調査結果は、クーポン/取引や広告のターゲット設定によく使用されます。同様に、この形式のデータ マイニング (かなり複雑なバージョンではありますが) が Netflix 映画の推奨の背後にあります。
クラスターの検出: 特に役立つパターン認識の 1 つのタイプは、データ内の個別のクラスターまたはサブカテゴリーを認識することです。データマイニングがなければ、アナリストはデータを見て、データ内の見かけのグループ間の関連する区別を捉えていると思われる一連のカテゴリを決定する必要があります。これにより、重要なカテゴリが失われる危険があります。データマイニングを使用すると、データ自体にグループを決定させることができます。これは、理解するのが難しいブラックボックス型のアルゴリズムの 1 つです。しかし、単純な例で言えば、やはり購買行動ですが、さまざまな愛好家の購買習慣は互いにかなり異なっていることが想像できます。庭師、漁師、模型飛行機の愛好家は皆、まったく異なるものになるでしょう。機械学習アルゴリズムは、データセット内の互いに大きく異なるさまざまなサブグループをすべて検出できます。
分類: 既存の構造がすでにわかっている場合は、データ マイニングを使用して、新しいケースをこれらの事前に決定されたカテゴリに分類できます。事前に分類された大規模な例から学習したアルゴリズムは、各グループ内の項目間の永続的な体系的な違いを検出し、これらのルールを新しい分類問題に適用できます。スパム フィルターはその好例です。スパムとして識別された大規模な電子メール セットにより、フィルターは正規のメッセージとスパム メッセージの間の単語の使用の違いを認識し、これらのルールに従って受信メッセージを高い精度で分類できるようになりました。
回帰: データマイニングを使用すると、多くの変数に基づいて予測モデルを構築できます。たとえば Facebook は、過去の行動に基づいてユーザーの将来のエンゲージメントを予測することに興味があるかもしれません。このようなモデルには、共有される個人情報の量、タグ付けされた写真の数、開始または承認された友達リクエスト、コメント、いいねなどの要素がすべて含まれる可能性があります。 Facebook が予測が観察された行動とどのように異なるかを比較する際に、時間の経過とともに、このモデルは、さまざまな事柄を含めたり、重み付けしたりするように改良される可能性があります。最終的に、これらの発見は、時間の経過とともにエンゲージメントの増加につながると思われるより多くの行動を促進するための設計の指針として使用できる可能性があります。
「これが、成功しているインターネット企業のほとんどがこのようにしてお金を稼ぎ、そこから力を引き出しているのです。」
記述的データマイニングによって検出されたパターンと構造は、データの他の側面を予測するために適用されることがよくあります。 Amazon は、記述的な結果が予測にどのように使用されるかについての有用な例を提供しています。たとえば、カクテルシェーカーとマティーニグラスの購入の間の(仮説的な)関連性は、他の多くの同様の関連性とともに、特定のユーザーが特定の購入を行う可能性を予測するモデルの一部として使用できます。このモデルは、そのようなすべての関連付けをユーザーの購入履歴と照合し、どの製品を購入する可能性が最も高いかを予測できます。その後、Amazon はユーザーが購入する可能性が最も高いものに基づいて広告を配信できます。