近代史全体で何冊の本が出版されていますか? Google の高度なアルゴリズムによると、その答えは約 1 億 3,000 万冊、正確には 1 億 2,986 万 4,880 冊になります。
これまでに書かれたすべての本の数を数えることは事実上不可能であることは認めますが、Google ブックス世界中に供給される印刷された知識を適切にカタログ化するために、同社はスキャンする必要がある書籍の量を見積もる必要があります。だからこそ、Google はまさにそれを実現するという課題に着手したのです。
詳しいところではブログ投稿、ソフトウェアエンジニアのレオニード・タイチャー氏は、数え帳簿が実際にどれほど複雑になるかを概説しました。最初のステップは、本が何であるかを正確に定義することです。同社は、理想的なバインドボリュームではないものはすべて割引することにしました。
「書籍のメタデータを処理する際に、Google 内で役立つと思われる本の定義の 1 つは、理想化された製本された冊子である『本』です。本は何百万部も発行される場合もあり (たとえば、ダン ブラウンの『天使と悪魔』の特定の版)、たった 1 部か 2 部です (大学図書館に眠っている無名の修士論文など)。」
Google はその定義が不完全であることを認めていますが、それは実行可能であり、ISBN が表現すべきものと似ています。 ISBN (国際標準書籍番号) は、書籍の一意の識別子となるように設計されています。誕生してまだ 30 ~ 40 年しか経っておらず、主に欧米諸国で使用されているため、単独で使用することはできません。 Google が米国議会図書館からデータを取得したのはそのためです。ワールドキャット他の人は、できるだけ多くの書籍を検索することを目的としています。会社のカウントによると 10 億件の生の記録です。
ここで Google のエンジニアリングの才能が発揮されます。同社は、各書籍レコードが一意であるか別の書籍の重複であるかを評価するために、世界中の書籍に関連する 150 以上のメタデータを必要とする取り組みで、重複を判断して破棄するために無数のアルゴリズムを使用しました。このデータを分析すると、2 億 1,000 万冊のユニークな書籍が得られました。
次に、Google は何百万ものマイクロフォーム、音声録音、地図、T シャツ、七面鳥の問題 (そう、七面鳥の調査)、および IBSN のビデオを差し引いて、1 億 4,600 万というより妥当な数に到達しました。最後に、同社は推定から 1,600 万件の政府文書を削除し、本日発表した件数は 1 億 2,980 万件となりました。もちろん、この投稿を執筆している間も出版社は新しい書籍を発行しているため、同社は書籍数を常に再計算しています。
当社には支援してくれるソフトウェア エンジニアやアルゴリズムの軍隊がいませんが、私の直感では、この数字は低すぎるし、会社には歴史の記録から数えるべき多くの書籍があると考えています。それでも、世界の本の供給量を把握するこのプロジェクトは単純に魅力的であり、今後何年にもわたって研究や歴史的な目的に役立つ可能性があります。