クレジット:
Googleリファインこれは、Google が買収したデータ クリーニング ツールである Freebase Gridworks から生まれたプロジェクトです。メタウェブを購入しました夏の間に。 Googleはその後、Gridworksの名前を変更し、Refineとして再スタートさせた。
基本的に、Refine を使用すると、データマニアが大量のデータをクリーンアップして使用することがはるかに簡単になります。
たとえば、Data.gov または同様の無料情報ソースからスプレッドシートをダウンロードして解析する必要がある学術論文、政府研究、またはニュース記事を書いている場合、データを並べ替えようとすると、あらゆる種類の不一致に気づく可能性があります。 。これは、過去に誰も保守もクリーンアップもしていない、無料で公開されたデータを使用している場合に特に問題になります。
Google Refine は、ユーザーの不整合の修正、データ形式の変更、ウェブ ソースや他のデータベースからのデータによるデータ セットの拡張などを支援することで、Gridworks のルーツを基盤に構築されています。公式の Google オープンソースによると、Refine は「新しい拡張アーキテクチャ、レコードを他のデータベース (Freebase など) にリンクするための調整フレームワーク、および大量の新しい変換コマンドと式」も提供します。ブログ。
以下は、Refine の新しく改良されたデータ クリーニング機能を紹介する 3 つのデモ ビデオのうちの 1 つ目です。
このツールを使用すると、研究中の学生やジャーナリストなど、大量のデータを扱うプログラマ以外の人々が、より迅速にデータを操作したり並べ替えたりできるようになることが想像できます。