ソフトウェア「StableDiffusion」の
登場で画像生成AIの進化が加速

 この新しい拡散モデルに目を付けたのがStabilityAIというITベンチャーです。開発者のグループと協力して、20億枚以上の画像とテキストデータを使って事前学習したモデルを、ソースコードも含めてまるごと無料で一般公開しました。「StableDiffusion」というソフトウェアで、例えば、サングラスをかけた豚、と入力すると、そのテキストを潜在空間のベクトルに変換し、すぐにサングラスをかけた豚の画像が生成されるのです(図5-4)。

図5-4同書より 拡大画像表示

 このStable Diffusionは世界に一大旋風を巻き起こしました。それまで手の届かない憧れの“スーパーカー”であった拡散モデルが、燃費の良い“軽自動車?として誰でも使えるようになったからです。エントリーする人が多い分野は、技術が加速度的に進歩します。拡散モデルも然りで、発表されてから1年も経たないうちに、GANにとって代わり、拡散モデルが画像生成AIの主流となりました。今はこれを応用した研究がすごいスピードで展開されている状況です。数年後には、また違う生成モデルが新たな変革を起こしているかもしれません。

書影『顔に取り憑かれた脳』(講談社現代新書)『顔に取り憑かれた脳』(講談社現代新書)
中野珠実 著