Google の DeepMind 研究所は、次のような人工知能プログラムを構築しました。自ら教えた世界で最も有力な囲碁プレイヤーの一人になること。 Googleによれば、このプログラムAlphaGo Zeroは「超人的な能力」を備えており、これまで人間には知られていなかった戦略を学習するという。
AlphaGo Zero は、囲碁というゲームに勝つ方法を何も知らずにスタートしました。囲碁は 2,500 年の歴史を持つ中国のゲームで、2 人のプレイヤーが白と黒のタイルを使って相手より多くの領土を占領するゲームです。
AlphaGo Zero は、2016 年に世界チャンピオンのイ・セドルを圧倒的に破った初期の AI プログラム (AlphaGo Lee) に勝つのに、わずか 3 日かかりました。21 日間の対局の後、AlphaGo Zero は敗北しました。アルファ碁マスターは、2017 年にオンラインでトップ プロ 60 名と別の世界チャンピオン プレイヤーを破ったことで知られるインテリジェントなプログラムです。40 日目までに、AlphaGo Zero は、AlphaGo の以前のすべての AI バージョンを破りました。
そして、これらすべての勝利は、人間が用意した戦略やゲームプレイの知識なしに達成されました。グーグル出版された今週のジャーナルに彼らの結果が掲載されました自然。
「AlphaGo Zero の最も重要なアイデアは、完全に学習するということです。味蕾つまり、人間の知識、人間のデータ、人間の例や特徴、人間の介入なしに、白紙の状態から開始し、自己プレイのみで自力で解決することを意味します」と、AlphaGo 研究主任のデビッド・シルバー氏は述べた。で自然インタビュー。
シルバー氏と彼のチームは、機械が人間の戦略を学習する様子を観察した後、AlphaGo Zero が自律的に超人的な能力を獲得する様子を観察しました。
マッシュ可能な光の速度
「そこで私たちが見え始めたのは、AlphaGo Zero は人間がプレイしがちな共通のパターンと序盤を発見しただけでなく、それらを学習し、発見し、最終的には人間にはない独自の差異を優先してそれらを破棄したということです」現時点では知っているかプレイしているだけです」とシルバーは説明した。
2017年5月、中国のプロ棋士柯潔(左)がグーグルの人工知能プログラム「AlphaGo」と対局する。 クレジット: VCG、Getty Images
Google の研究者らは、「強化学習」スキームを使用して、AlphaGo Zero を自ら学習できるほどインテリジェントにしました。ディープ ニューラル ネットワーク (人間の心がどのようにアイデアを関連付け、可能な限り最良の結果を予測するかを示す人工モデル) を使用して、AlphaGo Zero は独自の専門家による予測を作成し、そのエラーから学習しました。
約 3,000 万回の対局を通じて、AlphaGo Zero は膨大な数の手を打ちました。これにはコンピュータ ハードウェアに約 2,500 万ドルが必要でした。によるとGoogle DeepMind の最高経営責任者 Demis Hassabis 氏に。
AlphaGo Zero が世界大会を制覇した今、Google は、この前例のない自己学習能力を、マシンに教えるための時間とリソースを費やすことなく、他の問題に応用できると考えています。
「達成できれば味蕾学習すると、囲碁ゲームから他のドメインに移植できるエージェントが実際に存在します。自分がいるドメインの詳細から自分自身を解き放ち、どこにでも適用できるほど一般的なアルゴリズムを思いつきます」とシルバー氏は言いました。
AlphaGoの実験が何らかの手がかりであれば、この種のAIイノベーションは、「超人的」な思考が他の存在領域、おそらくは医療や自動運転車に応用される可能性がある。
しかしディープマインドのシルバー氏によれば、目的は人間を超えることではない。これらの知的な機械が人類の知識の総和に貢献するためです。
「私たちにとって、AlphaGo のアイデアは、外に出て人間を倒すことではなく、プログラムが知識とは何かを自ら学習できるようにすることです」と彼は語った。