2022年に入り、続々と公開され話題となっている「画像生成AI」。マイクロソフトやグーグルでエンジニアとして活躍し、複数の企業で技術顧問を務める及川卓也氏が、その革新性について解説しながら「テキストで狙った画像を作ることの難しさ」について考察します。
「世の中にないものを作り出す」
画像生成AIの新しさ
2022年に入ってから、画期的な「画像生成AI」が次々と発表・公開され、“画像生成AI元年”とも言えるような活況となっています。
3月にはマイクロソフトも出資するAI開発企業のオープンAIが、そして5月にはグーグルが相次いで新しい画像生成AIを発表しました。これを追うように、6月には米国の独立系ラボ、ミッドジャーニーが「Midjourney」を、8月には英国のスタートアップ、スタビリティAIが「Stable Diffusion(ステーブルディフュージョン)」を公開しました。特にMidjourneyとStable Diffusionは誰でも無料で利用できる(Midjourneyは無料で生成可能な枚数に上限あり)ことから、大きなインパクトをもたらしました。
これらの画像生成AIは、いずれも「テキストを入力すると画像が生成される」という点で画期的でした。これまでにも「テキストを入力してテキストを生成する」、あるいは「画像データを与えて説明文をテキストで表示する」という仕組みはありました。しかし、画像生成AIのようにテキストを与えて他のものを生成する仕組み、世の中に存在しないものをテキストから作り上げる仕組みは最近まで、実用レベルには至っていませんでした。それがこの1年ほどで、一気に進化しているのです。
テキスト以外のものからテキストを表示する仕組みが先行していた理由の1つは、そのためのエンジンやAIが検索サービスによって発展したという経緯があります。