「Googleの猫」(画像認識)は、
今後のAIの基幹技術である
「Googleの猫」とは、2012年に発表されたAIの研究結果です。
Google社の研究チームは、ディープラーニングという手法を用いて、YouTubeに投稿されたビデオの中から無作為に一千万枚の画像を取り出してAIに学習をさせました。
その結果、AIが「猫が写っている画像を見分けられるようになった」と発表したのです。
この研究で特に注目されたのは、人がAIに「猫」という概念を教えたわけではない、という点です。
1000万枚の画像を学習・パターン分析しているうちに、AIは画像内の特徴を認識し、自発的に分類できるようになったのです。
つまり、AIが独自で「グループ分け」、言い換えれば「認知」ができることが実証されたわけですが、これはもはや教科書に載ってもおかしくない快挙です。
人がなにも教えていないのに(教師なし学習)、AIが試行錯誤を繰り返し、自力で猫を認知したわけですから。
あとは、人は、AIが行ったグループ分けの結果について、「そのグループは、人の言葉で『猫』と呼びます」と教えてあげればよいだけなのです。
この研究の発表後、急速にAIを使った「0からの認識」「人が教師となるのではなく、AI自身に学習させる手法」の研究が進み、単なる「画像認識」から、オートドライブの自動車のような「運動の習熟」、さらには「言語理解」というステップを踏んで、現在もAIは日々研究され、進化しています。
ちなみに、人間のような全能型のAIを開発しようと思ったら、カギを握るのは視覚情報と聴覚情報です(味覚情報や嗅覚の優先度が低いことは、みなさんも日常生活の中で実感していることと思います)。
そして、聴覚情報に関しては、1990年代のパソコンソフトにも音声入力に対応したものがあったくらいですから、比較的早く研究は進んでおり、また、音声の正体は「周波数」「波」ですので、人が教えることで認識率を向上させることができました。
ところが、視覚情報となると、周波数のような単純なものではないので、多くの研究者が悪戦苦闘していたわけですが、そうした中で、人が何も教えていないのに、AIが勝手に猫を認識してしまったわけですから、それがどれほど凄いことかはみなさんも想像できるのではないでしょうか。
そして、視覚情報、すなわち「画像認識」は、今後のAIにおける基幹技術です。
自動車のオートドライブ(無人運転)にせよ、冷蔵庫が中の物を認識して自動的に牛乳や野菜を発注するにせよ、画像認識ができないことにはなにもはじまりません。
まさしく、2012年に歴史が動いたと言っても過言ではないでしょう。
最後に補足をしておくと、同時期に「人間の顔」を認識することにも成功していますが、なぜか「猫認識」ばかりが話題になって、人間の顔認識については紹介される機会が少ないことに触れておきます。
さて、あまりにも歴史的な快挙である「Googleの猫」。
それを支えている技術は「ディープラーニング」なのですが、ディープラーニングをするAIは「子どものAI」。
一方で、人が一から教えて丸暗記させるAIは「大人のAI」と呼びます。
同じAIといえども、両者でどれほどの違いが出るのかは、第1回連載の中で「子どものAI」である「Google翻訳」と、「大人のAI」である別の翻訳サービス(X翻訳)に同じ英文を日本語に翻訳させて、まったく異なる結果になるケースを紹介しています。現在一番人気の第2回連載「近い将来、『税理士や翻訳家は失業』という予想は大間違い」と併せてお読みいただけたら、望外の喜びです。