スピーチ動画をその人の声のままで多言語に吹き替える
HeyGen “Video Translate”

 これまで生成AIは、テキストの翻訳や、音声・動画ファイルからの文章の書き起こし、そして合成音声によってテキストをなめらかに読み上げるアバターなどを可能にしてきた。では、これらの機能を統合的に組み合わせてみるとどうなるのか? その一つの成果が、動画のAI生成に力を入れているHeyGen LabsのVideo Transrate(ビデオトランスレート)だ。

 このサービスは、アップロードされたスピーチ動画(一度に1人が、比較的正面を向いて話しているもの)を、15の言語に変換することができ、しかも、変換後の言語に応じて声に合った口の動きをつけるリップシンク処理まで行ってくれる。つまり、あたかも本人が別の言語で話しているかのような動画が生成されるのである。

 今回は、NASAの会見映像(基本的にコピーライトフリーで自由に利用できる)を使って、英語から日本語に変換してみた例を掲載する。前半は男性、後半は女性が話している動画だが、性別を含めて、ある程度元の声を特徴が反映されていることが分かるはずだ。これまでも研究レベルでは行われていたことだが、こうした技術を普通に使って、映画を俳優本人の声でリアルに吹き替えたり、企業のプロモーションビデオを多言語化したりする時代も、遠からず実現するだろう。

 今はベータ版としての公開で、長めのビデオを変換するには有料プランの購読が必要だが、アカウント登録によってお試し用の1クレジットが付加される。1クレジットは、計1分間までのビデオ生成に対応し、30秒に満たない場合も30秒としてカウントされる点に注意が必要だが、手元の動画などで試してみると、かなり驚くのではないだろうか。

HeyGen Video TransrateHeyGen Video Transrateは、動画を元の人物の声の特徴を生かして15の言語に変換し、言葉に合わせて口の動きも調整する生成AIサービス。元のファイルをドロップして、言語を選び、“Translate this video”をクリックするだけで処理される。 拡大画像表示
HeyGen Video Transrateで、NASAの会見映像を日本語化した例。英語→日本語→英語→日本語の順で動画の人物が話すので見てみてほしい。ミッションで使われている固有名詞や、2024年の意味で使われている24の訳が間違っている部分、顔の向きが横に近い動きをしたときに画像の乱れがあるものの、総じて変換レベルは十分高いといえる。