【生成AI最新事情】画像で驚いてる場合じゃない!動画・音楽・3Dデータもテキストから作れる時代が来た驚くべきスピードで進化する生成AI。AIが生成する画像が話題になっているが(この画像もそうだ)、本記事ではさらに先、動画やアプリを生成できるサービスを紹介する Photo:Midjourney AI + K.Otani

生成AIといえば、会話系のChatGPTやBing AI、Bard、画像系のMidjourney AIやDALL-E、Stable Diffusionなどが知られている。しかし今やそれに留まらず、動画や3Dデータ、ロボット制御など、さまざまなデータや物理的なメカニズムの動きまで、プロンプトから作り出せるようになりつつある。まだ実用クオリティに達していないものももちろんあるが、昨今のAIの進化の速さを考えれば、それらがモノになるのも時間の問題だ。それを象徴するのが「Text to X」という言葉で、これには、テキスト(プロンプト)から何でも作り出せるという意味が込められている。ここでは、そうした生成AIの最前線を俯瞰してみよう。(テクノロジーライター 大谷和利)

テキストを打ち込むだけで動画が作れる!動画系生成AIの進化

 最初に紹介するのは、動画系の生成AIである。この種のAIには、画像生成AIの延長で、生成した画像から動画を作り出すPhenakiRunwayのGen-2などがある。しかし、現状では、(少なくとも公開されている範囲では)用意された単語の組み合わせによる生成(Phenakiの場合)や、プロンプトからの生成では短く単純なシーンのみの生成(Runway Gen-2)に留まっているため、技術デモや趣味的な利用がメインといえる。

 これに対し、ビジネスで利用できる実用的なサービスを展開しているのが、synthesiaDEEPBRAINだ。どちらもスライドショーをベースに、AI生成のアバターに多言語対応のナレーションを担当させることができる。synthesiaでは、85種類以上のアバターと120以上の言語を利用でき、DEEPBRAINでは100種類以上のアバターと80以上の言語がサポートされている。