生成AIといえば、会話系のChatGPTやBing AI、Bard、画像系のMidjourney AIやDALL-E、Stable Diffusionなどが知られている。しかし今やそれに留まらず、動画や3Dデータ、ロボット制御など、さまざまなデータや物理的なメカニズムの動きまで、プロンプトから作り出せるようになりつつある。まだ実用クオリティに達していないものももちろんあるが、昨今のAIの進化の速さを考えれば、それらがモノになるのも時間の問題だ。それを象徴するのが「Text to X」という言葉で、これには、テキスト(プロンプト)から何でも作り出せるという意味が込められている。ここでは、そうした生成AIの最前線を俯瞰してみよう。(テクノロジーライター 大谷和利)
テキストを打ち込むだけで動画が作れる!動画系生成AIの進化
最初に紹介するのは、動画系の生成AIである。この種のAIには、画像生成AIの延長で、生成した画像から動画を作り出すPhenakiやRunwayのGen-2などがある。しかし、現状では、(少なくとも公開されている範囲では)用意された単語の組み合わせによる生成(Phenakiの場合)や、プロンプトからの生成では短く単純なシーンのみの生成(Runway Gen-2)に留まっているため、技術デモや趣味的な利用がメインといえる。
これに対し、ビジネスで利用できる実用的なサービスを展開しているのが、synthesiaやDEEPBRAINだ。どちらもスライドショーをベースに、AI生成のアバターに多言語対応のナレーションを担当させることができる。synthesiaでは、85種類以上のアバターと120以上の言語を利用でき、DEEPBRAINでは100種類以上のアバターと80以上の言語がサポートされている。