ディープラーニング
だからこそ可能な「強化学習」

 では、「強化学習」とは、どのような原理なのでしょうか。

 これは一言で言えば、「ある状態からある目的を達成できそうな一連の行動」を探す仕組みです。

 たとえば、将棋や囲碁のようなゲームであれば、最終的に「勝利すること」が「目的」となります。
「強化学習」を行う場合には、この目的を達成する行動に対して、「報酬」を与えるようにします。

 また、最初の状態から目的を達成する状態へと移行するまでには、何回かの行動を選択することになるわけですが、この行動の選択回数、いわば総数に応じて報酬を減衰させます。
 すなわち、同じ目的に達する行動でも、「早く達成したほうがもらえる報酬が多い」仕組みにしておくわけです。

 このような仕組みで学習を行わせることによって、最終的により多くの報酬を得られるように、最初の状態から最も報酬の高い行動を取るように学習させる方式こそが「強化学習」なのです。

 この報酬を算出する要素は、人がプログラミングするのではなく、AI自身が動的に追加したり削除したりします。

 ですから、人には要素の数などはわかりますが、その要素がどういうものなのかは、正確なところはわからないケースもあります。

 実際に、佐藤天彦名人を破った「ポナンザ」の開発者も、イ・セドル九段を破った「アルファ碁」の開発者も、AIがどのように報酬を獲得しているか、言い換えれば、「AIがなにを考えているのか」は理解できていません(これがわかるということは、AIでなくても、その開発者が将棋や囲碁で勝てるということになります)。