AIの説明でよく使われる「ディープラーニング」。人間の脳の機能をもとにつくられたこの仕組みによって、AIの機能は劇的に向上した。ディープラーニングは、生活のさまざまなシーンですでに私たちも使っているのだという。AIの分野で日本をはじめシンガポールやドイツでも活躍する若者、株式会社ABEJA・岡田陽介社長に聞く。(経済ジャーナリスト 夏目幸明)

コンピューターが直感を獲得する!?
ディープラーニングとは何か

フェイスブックはどうやって友達の顔写真を特定しているのか今回のAIブームが一過性で終わらないのは、「ディープラーニング」の登場にある。今ではあちこちで耳にするようになったディープラーニングを、もう一度きちんと押さえておこう。

夏目 前回(記事はこちら)、ディープラーニング」で、AIは人間同様「経験の蓄積」ができるように進化し「直感」を持つようになった、とおっしゃってましたが、私には宇宙語のように思えます。

岡田 いえ、わかりやすくご説明できますよ。まず、ここに犬と猫の写真があります。我々は簡単に「これは犬」「こっちは猫」と判別できますよね。じゃあナツメさんは、論理的に「ここがこうだと犬」「ここがこうなら猫」と説明できますか?

夏目 犬も猫も4本足で、鼻の下にヒゲが…あれ?これじゃダメだな。難しいですよね。

岡田 でも、それを定義して教えないと、コンピューターは犬と猫の区別すらできないんです。じゃあ逆に、なぜ人間は犬と猫の区別がつくんでしょう?それは犬や猫を見てきた経験を蓄積し、直感を持っているからです。

 そこで、コンピューターにも人間と同じように経験を積んでもらいます。具体的には、犬の写真を何千枚と見せるのです。犬の顔のアップもあれば、後ろ姿もあるでしょう。雪景色の中で走っている写真もいいでしょう。コンピューターは見せられた画像を解析していきます。

 まず、どこか1ピクセルを見て、次にその周囲を1ピクセルずつ広げて見て、また1ピクセル広げて見て…と分析します。それが終わるとさらに、隣のピクセルを見て、また周囲1ピクセルまで広げて見て、また1ピクセル広げて見て…と飽きずに繰り返します。しかもこれを、何千枚、何万枚と続けるんです。すると「犬の画像にはこんな特徴がある」という共通点が見つかってきます。例えば猫にない耳のエッジとか…。

夏目 舌を出してる写真が多いな、とか?

岡田 それもあるでしょう。コンピューターは「舌だ」と認識はしませんが、「画像にいつもの形がある」「これは犬の特徴の一つかもしれない」と記憶し始めます。耳、目、鼻、尻尾、毛並み、動き方など、様々な部分に「犬の写真のいつもの形」があるわけです。そして猫でも同じことをします。するとAIは「これは犬の可能性が高い」「猫の可能性が高い」と判別し始めます。これが「ディープラーニング」(深層学習)による画像認識です。こうしてAIは直感を得ていくのです。

夏目 もしかしたら、人間もそうやって犬と猫の違いを判別しているのかもしれない。

岡田 おっしゃる通りです。このディープラーニングの仕組みは人間の脳の機能をもとにつくられていて「ニューラルネットワーク」(神経回路網)と呼ばれます。人間と同じように、経験を積むことで正確性が高まっていきます。例えば犬は犬でも、毛が長い犬、耳が長い犬など、より多くの犬を見せるほど「これも犬か」「これも犬か」と特徴を記憶していきます。これを「特徴量の獲得」と言います。具体的には「画像にこの特徴(形)が出現すると90%の確率で犬。この特徴が検出されると90%の確率で犬、2つ合わせると99%犬」といった具合に判断していくんです。