スピーチ動画をその人の声のままで多言語に吹き替える
HeyGen “Video Translate”
これまで生成AIは、テキストの翻訳や、音声・動画ファイルからの文章の書き起こし、そして合成音声によってテキストをなめらかに読み上げるアバターなどを可能にしてきた。では、これらの機能を統合的に組み合わせてみるとどうなるのか? その一つの成果が、動画のAI生成に力を入れているHeyGen LabsのVideo Transrate(ビデオトランスレート)だ。
このサービスは、アップロードされたスピーチ動画(一度に1人が、比較的正面を向いて話しているもの)を、15の言語に変換することができ、しかも、変換後の言語に応じて声に合った口の動きをつけるリップシンク処理まで行ってくれる。つまり、あたかも本人が別の言語で話しているかのような動画が生成されるのである。
今回は、NASAの会見映像(基本的にコピーライトフリーで自由に利用できる)を使って、英語から日本語に変換してみた例を掲載する。前半は男性、後半は女性が話している動画だが、性別を含めて、ある程度元の声を特徴が反映されていることが分かるはずだ。これまでも研究レベルでは行われていたことだが、こうした技術を普通に使って、映画を俳優本人の声でリアルに吹き替えたり、企業のプロモーションビデオを多言語化したりする時代も、遠からず実現するだろう。
今はベータ版としての公開で、長めのビデオを変換するには有料プランの購読が必要だが、アカウント登録によってお試し用の1クレジットが付加される。1クレジットは、計1分間までのビデオ生成に対応し、30秒に満たない場合も30秒としてカウントされる点に注意が必要だが、手元の動画などで試してみると、かなり驚くのではないだろうか。