自己対戦で学習する囲碁AI 
人間の"お手本"はもはや不要か

 アルファゼロとアルファ碁ゼロの仕組みは似ている。ここでは大きな飛躍となったアルファ碁ゼロと、今までの囲碁AIとの最大の違いを説明しよう。従来の囲碁AIは、まず始めに人間の棋譜データを使って学習していた。人間のデータで囲碁の基礎を学んだ後に、自分自身との対戦による強化学習によって強くなるという流れだ。

 ところがアルファ碁ゼロは、人間の"お手本"を使わない。何も知らないAIが、ひたすらランダムに石を打ち合う自己対局を繰り返し、そこで生成されたデータだけで自ら学んでいくのだ。

 碁盤は19×19=361の着点があり、その変化の数は宇宙に存在する原子の数よりも多いと言われている。初めからランダムな自己対戦だけでは、この膨大な変化の数から有益な手を見つけ出すのは難しいと思われていた。そのため、これまでは学習を軌道に乗せるまでは人間のデータを使っていた。

 しかしアルファ碁ゼロは、メチャクチャな自己対戦からも次第に勝つ手を学び、強くなり続けることができる。教師となる人間のデータを必要とせず、自己生成できることを示し、AIの可能性は大きく広がったといえる。

 では、この流れを真似すれば、誰しもアルファ碁ゼロのような強力な囲碁AIを作れるのだろうか。

 実は、ここに一つの問題がある。アルファ碁ゼロは、学習開始からたった3日で人間の世界トップレベルを上回った。この学習には、グーグルが開発した機械学習に特化した超高性能の半導体「TPU」が2000個使われている。

 複数の囲碁AI開発者によれば、この計算量を市販のコンピュータを使って個人ベースで実行しようとすると数百年、小規模の研究室レベルでも数十年かかると試算されている。ディープマインドの技術力と、グーグルの莫大なリソースが合わさってこその成果と見ることもできる。誰でも簡単に、同じ規模の開発をできるわけではないのだ。