スマートフォン版を表示

「サングラスをかけた豚」も瞬時に描く！画像生成AI、驚きの進化の歴史とは？

中野珠実：大阪大学大学院情報科学研究科教授、情報通信研究機構（NICT）・脳情報通信融合研究センター（CiNet）主任研究員

テクノロジーニュースな本

2024.3.27 14:00

中野珠実

[大阪大学大学院情報科学研究科教授、情報通信研究機構（NICT）・脳情報通信融合研究センター（CiNet）主任研究員]

なかの・たまみ／1999年、東京大学教育学部卒業。2009年、東京大学大学院教育学研究科修了。博士（教育学）。順天堂大学医学部助教、大阪大学大学院医学研究科・生命機能研究科准教授を経て、2023年より現職。

ニュースな本

ビジネス・経済から、エンタメに教育、政治まで…。世の中には山のように書籍が存在する。その中から「読んでためになる」「成長できる」「思わずうなる」ような書籍を厳選し、その一部をお届けする連載。話題の新刊から埋もれた名著まで、きっと素敵な発見があるはずだ。気になる書籍があれば、ぜひ元の書籍を読んでほしい。

バックナンバー一覧

目覚ましいスピードで
進化する生成AI技術

　そのような状況の中で、再び生成モデルに一大変革が巻き起こりました。それは、2020年にカリフォルニア大学バークレー校のジョナサン・ホーらが発表した「デノイジング拡散確率モデル」です。StyleGANにより画像生成は頂点に達したかと思われていましたが、それを超える高精度の画像を生成できることを示したのです（図5-2参照）。

　目覚ましいスピードで進化するAI技術ですが、GAN同様、このモデルにもやはり課題が一つありました。というのも、ノイズから少しずつ画像データを復元していく必要があるため、何度も同じような処理を繰り返さなければならず、学習に膨大な時間がかかってしまいます。そのため、莫大な計算力を持つ一部の大手IT企業しか拡散モデルを使うことができなかったのです。

　しかし、2022年4月、またしても、その巨大な障壁に風穴があけられました。ドイツにあるルートヴィヒ・マクシミリアン大学の研究グループが、個人のパソコンでも動作するような小型の拡散モデルを開発したのです。彼らが発表した生成モデルは「潜在拡散モデル（latent diffusion model）」と名付けられました。以前の拡散モデルとは次のような点で異なります。

　1枚の画像は、実は小さなマス目（画素）の集まりでできています。そのマス目の単位をピクセル（Pixel）と呼びます。例えば、縦200ピクセル、横200ピクセルで表現された画像のピクセルの総数は4万個になります。それまでの拡散モデルは、画像が持つ情報をピクセル空間の状態のままで処理していました。すると、画像の情報を4万個というとても大きな次元で表現することになり、莫大なメモリーが必要となります。

　一方、新しい潜在拡散モデルでは、変分オートエンコーダの技術を使って画像の情報から特定の特徴を取り出し、その特徴を表現する空間（潜在空間）で拡散プロセスを実行することで、情報の次元を圧縮しています。さらに、この拡散モデルには、ChatGPTにも使われているTransformer（どこに注意を向けるかを学習する機構）など、最先端のAI技術がこれでもかというぐらい詰め込まれています。それにより、必要なメモリーの量や計算量を大幅に減らして、画像生成の処理を高速化することに成功したのです。

特集

石油ムラに新序列！旧村上ファンドからコスモ株を取得した岩谷産業による「小が大をのむディール」が大再編の号砲に

石油ムラに新序列！旧村上ファンドからコスモ株を取得した岩谷産業による「小が大をのむディール」が大再編の号砲に

アクティビストに狙われる【薬局・ドラッグストア19社ランキング】3位アイン、1位は？

アクティビストに狙われる【薬局・ドラッグストア19社ランキング】3位アイン、1位は？

【中学受験勉強法・算数3】合否を左右する算数を親子で復習！難問正解につながる線分図や図形の描き方【動画講座】

【中学受験勉強法・算数3】合否を左右する算数を親子で復習！難問正解につながる線分図や図形の描き方【動画講座】

【レジェンド農家ランキング・ベスト20】「時給2500円」は当たり前！5位グリンリーフ・野菜くらぶ、2位サラダボウル、1位は？

【レジェンド農家ランキング・ベスト20】「時給2500円」は当たり前！5位グリンリーフ・野菜くらぶ、2位サラダボウル、1位は？

アクセスランキング

１時間
昨日
１週間
会員

ランキング一覧

最新記事

最新記事一覧

TOP