言語モデル「GPT-3」を画像生成に応用

2021年1月、テキストを与えるとその内容にもとづいた画像を生成できる、あるAIが登場する。イーロン・マスクも創設メンバーに名を連ねた米国のAI研究・開発企業、OpenAIが発表した「DALL・E」だ。OpenAIは、その前年の2020年7月に大規模言語モデル「GPT-3」を発表。「Transformer」というディープラーニングのモデルを用いており、詩や記事など、まるで人間が考えたような自然な文章を生成できるのが特徴で、DALL・Eはそれを画像生成に応用している。

OpenAIのブログでは、「アボカドのかたちをした肘掛け椅子」といった指示文を与えて生成した画像を紹介している。この画像生成を実現させているのが、OpenAIがDALL・Eと同時に発表した「CLIP」という画像分類モデル。インターネット上に存在する画像と対になったテキストを学習に用いて、画像とテキストの類似度を推定する。

「アボカドのかたちをした肘掛け椅子」という指示文を与えてDALL・Eで生成した画像。OpenAIのブログより引用
「アボカドのかたちをした肘掛け椅子」という指示文を与えてDALL・Eで生成した画像。OpenAIのブログより引用

2022年3月、OpenAIは「DALL・E 2」を発表した。「写実的に描かれた、馬に乗る宇宙飛行士」のような画風やコンセプトの指示文を与えると、その内容に忠実な高品質の画像を生成することが可能になった。このDALL・E 2に使われているのが「Diffusion Model(拡散モデル)」というモデルだ。GANを超える画像生成が可能として近年、注目を集めている。現在、DALL・E 2はベータ版を提供しており、ウェイティングリストの登録者から順次使用可能になっている。

「写実的に描かれた、馬に乗る宇宙飛行士」という指示文を与えてDALL・E 2で生成した画像。OpenAIの公式サイトより引用
「写実的に描かれた、馬に乗る宇宙飛行士」という指示文を与えてDALL・E 2で生成した画像。OpenAIの公式サイトより引用

2022年は“画像生成AI元年”とも言うべき盛況に

2022年5月にはGoogleでAIを研究・開発するGoogle ResearchのBrain Teamが画像生成AI「Imagen」を発表。ImagenもDALL・E 2同様に拡散モデルを採用しており、発表によると、その生成クオリティはDALL・E 2を超えるという。6月にはさらに「Parti」という画像生成AIも発表。社会へ及ぼす影響が不明瞭ということで、あくまで研究成果の発表にとどめており、現段階で一般向けには公開していない。

同じく6月、米国のAI開発企業・Midjourneyが画像生成AI「Midjourney」を公開した。同社を率いるデビッド・ホルツは、ユーザーの手の動きを感知してコンピューターを操作するデバイス「Leap Motion」を開発するLeap Motion(現Ultraleap)の創業者で元CEO。MidjourneyはDALL・E 2と同様、テキストを与えることで画像の生成が可能だ。生成可能な枚数に上限があるものの、誰でも無料で使い始められる。