目覚ましいスピードで
進化する生成AI技術
そのような状況の中で、再び生成モデルに一大変革が巻き起こりました。それは、2020年にカリフォルニア大学バークレー校のジョナサン・ホーらが発表した「デノイジング拡散確率モデル」です。StyleGANにより画像生成は頂点に達したかと思われていましたが、それを超える高精度の画像を生成できることを示したのです(図5-2参照)。
目覚ましいスピードで進化するAI技術ですが、GAN同様、このモデルにもやはり課題が一つありました。というのも、ノイズから少しずつ画像データを復元していく必要があるため、何度も同じような処理を繰り返さなければならず、学習に膨大な時間がかかってしまいます。そのため、莫大な計算力を持つ一部の大手IT企業しか拡散モデルを使うことができなかったのです。
しかし、2022年4月、またしても、その巨大な障壁に風穴があけられました。ドイツにあるルートヴィヒ・マクシミリアン大学の研究グループが、個人のパソコンでも動作するような小型の拡散モデルを開発したのです。彼らが発表した生成モデルは「潜在拡散モデル(latent diffusion model)」と名付けられました。以前の拡散モデルとは次のような点で異なります。
1枚の画像は、実は小さなマス目(画素)の集まりでできています。そのマス目の単位をピクセル(Pixel)と呼びます。例えば、縦200ピクセル、横200ピクセルで表現された画像のピクセルの総数は4万個になります。それまでの拡散モデルは、画像が持つ情報をピクセル空間の状態のままで処理していました。すると、画像の情報を4万個というとても大きな次元で表現することになり、莫大なメモリーが必要となります。
一方、新しい潜在拡散モデルでは、変分オートエンコーダの技術を使って画像の情報から特定の特徴を取り出し、その特徴を表現する空間(潜在空間)で拡散プロセスを実行することで、情報の次元を圧縮しています。さらに、この拡散モデルには、ChatGPTにも使われているTransformer(どこに注意を向けるかを学習する機構)など、最先端のAI技術がこれでもかというぐらい詰め込まれています。それにより、必要なメモリーの量や計算量を大幅に減らして、画像生成の処理を高速化することに成功したのです。