2022年に入って立て続けに、Googleや新興のAI開発企業から「画像生成AI」が発表・公開されている。8月に英国のAI開発企業・Stability AIが一般向けに公開した「Stable Diffusion」は、無料で使用でき、オープンソースで提供されたことで大きな話題を集めた。他にも米国のAI開発企業、OpenAIが「DALL・E 2」のベータ版を公開。同じく米国のAI開発企業・Midjourneyが、「Midjourney」を提供している。一部の研究・開発者だけでなく一般ユーザーも使えるようになったことで、AIによる画像生成が広まりつつある。
では、この画像生成AIはいったい、どのような研究・開発を経ていま花開こうとしているのだろうか。今回は2014年に発表され画像分野のAI研究に大きな影響を与えた「GAN(敵対的生成ネットワーク)」から、Stable Diffusionの登場に至るまでの経緯を駆け足で振り返る。
すべては「GAN(敵対的生成ネットワーク)」の登場から
AIによる画像生成においてエポックメイキングだったのが、2014年に発表された「GAN(敵対的生成ネットワーク)」。当時、モントリオール大学の博士課程に在籍していたイアン・グッドフェローらが発案したアルゴリズムだ。
ディープラーニングは大量のラベリングされたデータによる学習を必要としていたが、GANはその学習データを自ら作り出す「教師なし学習」で使用されるアルゴリズムのひとつ。「Generator(生成するネットワーク)」と「Discriminator(真偽を判定するネットワーク)」が競い合うことで学習し、クオリティの高い画像の生成が可能になった。
そのGANの応用として画像生成の領域で衝撃を与えたのが、半導体大手の米エヌビディアの研究チームが2018年に発表した「StyleGAN」だ。StyleGANで生成された人物写真は実在の人物と区別が付かないほど高精度で、大きな話題を呼んだ。StyleGANはその後、StyleGAN2、StyleGAN2-ADA、StyleGAN3と性能を向上させたバージョンが発表されている。