2022年は「画像生成AI元年」？ 「GAN」の発表から「Stable Diffusion」登場までを振り返る

言語モデル「GPT-3」を画像生成に応用

2021年1月、テキストを与えるとその内容にもとづいた画像を生成できる、あるAIが登場する。イーロン・マスクも創設メンバーに名を連ねた米国のAI研究・開発企業、OpenAIが発表した「DALL・E」だ。OpenAIは、その前年の2020年7月に大規模言語モデル「GPT-3」を発表。「Transformer」というディープラーニングのモデルを用いており、詩や記事など、まるで人間が考えたような自然な文章を生成できるのが特徴で、DALL・Eはそれを画像生成に応用している。

OpenAIのブログでは、「アボカドのかたちをした肘掛け椅子」といった指示文を与えて生成した画像を紹介している。この画像生成を実現させているのが、OpenAIがDALL・Eと同時に発表した「CLIP」という画像分類モデル。インターネット上に存在する画像と対になったテキストを学習に用いて、画像とテキストの類似度を推定する。

「アボカドのかたちをした肘掛け椅子」という指示文を与えてDALL・Eで生成した画像。OpenAIのブログより引用

2022年3月、OpenAIは「DALL・E 2」を発表した。「写実的に描かれた、馬に乗る宇宙飛行士」のような画風やコンセプトの指示文を与えると、その内容に忠実な高品質の画像を生成することが可能になった。このDALL・E 2に使われているのが「Diffusion Model（拡散モデル）」というモデルだ。GANを超える画像生成が可能として近年、注目を集めている。現在、DALL・E 2はベータ版を提供しており、ウェイティングリストの登録者から順次使用可能になっている。

「写実的に描かれた、馬に乗る宇宙飛行士」という指示文を与えてDALL・E 2で生成した画像。OpenAIの公式サイトより引用

2022年は“画像生成AI元年”とも言うべき盛況に

2022年5月にはGoogleでAIを研究・開発するGoogle ResearchのBrain Teamが画像生成AI「Imagen」を発表。ImagenもDALL・E 2同様に拡散モデルを採用しており、発表によると、その生成クオリティはDALL・E 2を超えるという。6月にはさらに「Parti」という画像生成AIも発表。社会へ及ぼす影響が不明瞭ということで、あくまで研究成果の発表にとどめており、現段階で一般向けには公開していない。

同じく6月、米国のAI開発企業・Midjourneyが画像生成AI「Midjourney」を公開した。同社を率いるデビッド・ホルツは、ユーザーの手の動きを感知してコンピューターを操作するデバイス「Leap Motion」を開発するLeap Motion（現Ultraleap）の創業者で元CEO。MidjourneyはDALL・E 2と同様、テキストを与えることで画像の生成が可能だ。生成可能な枚数に上限があるものの、誰でも無料で使い始められる。

2022年は「画像生成AI元年」？「GAN」の発表から「Stable Diffusion」登場までを振り返る

言語モデル「GPT-3」を画像生成に応用

2022年は“画像生成AI元年”とも言うべき盛況に

特集

サントリーは平均約7％賃上げの裏で「新給与テーブル」へ移行、氷河期世代が割を食う過酷な現実とは？

石油ムラに新序列！旧村上ファンドからコスモ株を取得した岩谷産業による「小が大をのむディール」が大再編の号砲に

調剤薬局の薬剤師が「時給2000円切り」も!?固定化されてきた薬剤師の給与“序列”に異変

【中学受験勉強法・算数3】合否を左右する算数を親子で復習！難問正解につながる線分図や図形の描き方【動画講座】

言語モデル「GPT-3」を画像生成に応用

2022年は“画像生成AI元年”とも言うべき盛況に

おすすめの会員限定記事

【コンサルが教える】会った瞬間に「この人、頭悪いな」と思われる話し方・ワースト1

絶対に「部下を持たせてはいけない人」の“たった1つの特徴”

特集

サントリーは平均約7％賃上げの裏で「新給与テーブル」へ移行、氷河期世代が割を食う過酷な現実とは？

石油ムラに新序列！旧村上ファンドからコスモ株を取得した岩谷産業による「小が大をのむディール」が大再編の号砲に

調剤薬局の薬剤師が「時給2000円切り」も!?固定化されてきた薬剤師の給与“序列”に異変

【中学受験勉強法・算数3】合否を左右する算数を親子で復習！難問正解につながる線分図や図形の描き方【動画講座】