「AIに感情はない」は過去のもの？最新AIが「会話を打ち切っていいか迷うレベル」で進化していた！

2024年4月19日 7:30

ジェスチャーで簡単にポーズを指定できる画像生成AI「Krea」

　画像生成AIの画質や人物描写の進化には目を見張るものがあるが、今も解決されていない課題の一つに、「意図通りのポーズの生成が難しい」という点が挙げられる。より正確には、意図通りのポーズの生成をするためのプロンプトを考えるのが難しい、あるいは煩雑だというべきかもしれない。

　新興の生成AIサービスであるKreaのリアルタイム画像生成機能に組み込まれた、カメラ入力とプロンプトを複合利用する生成手法は、この問題に対する一つの解決法を示している。

ユーザーがリアルタイムでカメラ入力したポーズに合わせてキャラクターが生成される、Kreaの画像生成機能。あらかじめ決められたキャラクターで置き換えるVtuber用のアプリとは異なり、キャラクターの性別や特徴はプロンプトで指定できる　拡大画像表示

　例えば、アニメのキャラクターなどに扮して映像配信を行うVtuber向けのアプリでは、以前からスマートフォンやPCのカメラ入力を利用してリアルタイムでモーションキャプチャを行う技術が確立されていた。Kreaのリアルタイム画像生成がそれらと大きく異なるのは、既存の2D/3Dデータに対してユーザーのジェスチャーに合わせたポーズを付けるのではなく、ユーザーのポーズを基に、プロンプトによる特徴を備えたキャラクターをその場で生成するという点だ。そのため、自分のポーズに合わせて、老若男女さまざまなキャラクターを生み出すことができる。

アップのイメージだけでなく、全身のポーズなどにも対応している。また、元のユーザーのイメージとAI生成による脚色のバランスを上部中央のスライダーで連続的に調整することができる　拡大画像表示

　ただしリアルタイム生成とはいっても動画のようなスムーズさではなく、また、絵柄のディテールも生成されるたびに変化していく。そのため、実際のワークフローとしては、特定のプロンプトに対して色々なポーズを取りながら収録した画面録画から必要な箇所を静止画として切り出し、それに対してAdobe Fireflyなどの生成塗りつぶしや拡張塗りつぶしを利用してディテールを整えたり、他の動画生成AIのImage to Video機能を使って動きを付けたりしていくようなものが考えられる。

　いずれにしても、こうした複合的な画像生成手法は、程度の違いはあっても、今後、他の画像生成AIサービスでも取り入れるところが出てきそうだ。