EmbodyMeを創業した後もGAN(Generative Adversarial Network : 敵対的生成ネットワーク)などのディープラーニングを用いた映像生成技術に取り組み、2018年にはスマホから簡単にフェイク映像を作れるアプリ「Xpression」を公開している。
同サービスはxpression cameraと同じような仕組みで、有名人などの顔を乗っ取って動かせるビデオツールだ。主に以下のディープラーニングモデルを同時に動かすことで、リアルタイムで現実さながらの映像を生成する。
- カメラを通じてユーザーの顔の形状と表情を3Dで推定するモデル
- 素材動画や画像から3Dで顔の形状と表情を推定するモデル
- 口の中など映像として存在しないパーツを画像生成し補完するモデル
表情を推定する技術(3D Dense Face Tracking )に関しては、5万点以上の3Dのポイントを推定できる仕組みを作ることで表情を細かい部分まで認識。GANを用いて“存在しない箇所を画像生成する”モデルを構築し、静止画はもちろん動画についてもリアルタイムで動かせる環境を実現した。
今回のxpression cameraはこのXpressionで培ってきた基盤技術をカメラアプリという形で切り出したものだ。
ビデオの概念を変えるチャレンジへ
EmbodyMeの目標は「ディープラーニングなどを用いて、誰もが目に見えるあらゆるものを自由自在に作り出せる世界を作ること」。将来的には人がその場にいなくても、ビデオチャットや映画に使える映像を自在に生成できる技術の実現も見据える。
2019年9月にはDEEPCORE、インキュベイトファンドをはじめとしたベンチャーキャピタル数社と個人から2.3億円の資金調達を実施し、研究開発を加速。音声だけから表情を動かせる技術(技術的にはすでに実現できているそう)や頭部・体全体を動かせる技術などの研究も進めてきた。
蓄積してきた技術を用いたプロダクトとしていくつかの方向性を検討していたが、コロナの影響でビデオチャットが急激に普及し、新たな課題やニーズが生まれてきたことを受けてxpression cameraの開発に踏み切った。当面は基盤技術の研究開発フェーズと捉え、短期的なマネタイズは考えていないが、将来的には映像制作領域などでのビジネス化も視野に入れる。
「今はカメラの前に座って自分の表情を映すことが必要ですが、音声だけで(素材となる人の)顔を動かすことができるようになり、体の多彩な動きも表現できるようになればビデオならではの新しいコミュニケーションも実現できると考えています。まずはバーチャルカメラを基盤としたソフトウェアを用いて、ビデオの概念を変えていくようなチャレンジをしていきたいです」(吉田氏)