【生成AI最新事情】画像で驚いてる場合じゃない！動画・音楽・3Dデータもテキストから作れる時代が来た

2023年5月26日 4:20

会員限定

【生成AI最新事情】画像で驚いてる場合じゃない！動画・音楽・3Dデータもテキストから作れる時代が来た

驚くべきスピードで進化する生成AI。AIが生成する画像が話題になっているが（この画像もそうだ）、本記事ではさらに先、動画やアプリを生成できるサービスを紹介する　Photo:Midjourney AI + K.Otani

生成AIといえば、会話系のChatGPTやBing AI、Bard、画像系のMidjourney AIやDALL-E、Stable Diffusionなどが知られている。しかし今やそれに留まらず、動画や3Dデータ、ロボット制御など、さまざまなデータや物理的なメカニズムの動きまで、プロンプトから作り出せるようになりつつある。まだ実用クオリティに達していないものももちろんあるが、昨今のAIの進化の速さを考えれば、それらがモノになるのも時間の問題だ。それを象徴するのが「Text to X」という言葉で、これには、テキスト（プロンプト）から何でも作り出せるという意味が込められている。ここでは、そうした生成AIの最前線を俯瞰してみよう。（テクノロジーライター　大谷和利）

テキストを打ち込むだけで動画が作れる！動画系生成AIの進化

　最初に紹介するのは、動画系の生成AIである。この種のAIには、画像生成AIの延長で、生成した画像から動画を作り出すPhenakiやRunwayのGen-2などがある。しかし、現状では、（少なくとも公開されている範囲では）用意された単語の組み合わせによる生成（Phenakiの場合）や、プロンプトからの生成では短く単純なシーンのみの生成（Runway Gen-2）に留まっているため、技術デモや趣味的な利用がメインといえる。

　これに対し、ビジネスで利用できる実用的なサービスを展開しているのが、synthesiaやDEEPBRAINだ。どちらもスライドショーをベースに、AI生成のアバターに多言語対応のナレーションを担当させることができる。synthesiaでは、85種類以上のアバターと120以上の言語を利用でき、DEEPBRAINでは100種類以上のアバターと80以上の言語がサポートされている。

特集

あなたにおすすめ