AIの説明でよく使われる「ディープラーニング」。人間の脳の機能をもとにつくられたこの仕組みによって、AIの機能は劇的に向上した。ディープラーニングは、生活のさまざまなシーンですでに私たちも使っているのだという。AIの分野で日本をはじめシンガポールやドイツでも活躍する若者、株式会社ABEJA・岡田陽介社長に聞く。(経済ジャーナリスト 夏目幸明)
コンピューターが直感を獲得する!?
ディープラーニングとは何か
夏目 前回(記事はこちら)、ディープラーニング」で、AIは人間同様「経験の蓄積」ができるように進化し「直感」を持つようになった、とおっしゃってましたが、私には宇宙語のように思えます。
岡田 いえ、わかりやすくご説明できますよ。まず、ここに犬と猫の写真があります。我々は簡単に「これは犬」「こっちは猫」と判別できますよね。じゃあナツメさんは、論理的に「ここがこうだと犬」「ここがこうなら猫」と説明できますか?
夏目 犬も猫も4本足で、鼻の下にヒゲが…あれ?これじゃダメだな。難しいですよね。
岡田 でも、それを定義して教えないと、コンピューターは犬と猫の区別すらできないんです。じゃあ逆に、なぜ人間は犬と猫の区別がつくんでしょう?それは犬や猫を見てきた経験を蓄積し、直感を持っているからです。
そこで、コンピューターにも人間と同じように経験を積んでもらいます。具体的には、犬の写真を何千枚と見せるのです。犬の顔のアップもあれば、後ろ姿もあるでしょう。雪景色の中で走っている写真もいいでしょう。コンピューターは見せられた画像を解析していきます。
まず、どこか1ピクセルを見て、次にその周囲を1ピクセルずつ広げて見て、また1ピクセル広げて見て…と分析します。それが終わるとさらに、隣のピクセルを見て、また周囲1ピクセルまで広げて見て、また1ピクセル広げて見て…と飽きずに繰り返します。しかもこれを、何千枚、何万枚と続けるんです。すると「犬の画像にはこんな特徴がある」という共通点が見つかってきます。例えば猫にない耳のエッジとか…。
夏目 舌を出してる写真が多いな、とか?
岡田 それもあるでしょう。コンピューターは「舌だ」と認識はしませんが、「画像にいつもの形がある」「これは犬の特徴の一つかもしれない」と記憶し始めます。耳、目、鼻、尻尾、毛並み、動き方など、様々な部分に「犬の写真のいつもの形」があるわけです。そして猫でも同じことをします。するとAIは「これは犬の可能性が高い」「猫の可能性が高い」と判別し始めます。これが「ディープラーニング」(深層学習)による画像認識です。こうしてAIは直感を得ていくのです。
夏目 もしかしたら、人間もそうやって犬と猫の違いを判別しているのかもしれない。
岡田 おっしゃる通りです。このディープラーニングの仕組みは人間の脳の機能をもとにつくられていて「ニューラルネットワーク」(神経回路網)と呼ばれます。人間と同じように、経験を積むことで正確性が高まっていきます。例えば犬は犬でも、毛が長い犬、耳が長い犬など、より多くの犬を見せるほど「これも犬か」「これも犬か」と特徴を記憶していきます。これを「特徴量の獲得」と言います。具体的には「画像にこの特徴(形)が出現すると90%の確率で犬。この特徴が検出されると90%の確率で犬、2つ合わせると99%犬」といった具合に判断していくんです。