。今日は、そのアップデート版であるEMO2について詳しくお伝えします。この手法は、非常に表現力豊かな顔の表情とジェスチャーを同時に生成することができます。
二つの段階
では、拡散モデルを使用してビデオフレームを合成し、第一段階で生成された手の動きを組み込み、現実的な顔の表情と身体の動きを生成します。
この二段階の方法は、音声と全身の動きの間の相関性が弱い問題を効果的に解決し、生成されるビデオのリアリズムと表現力を大幅に向上させます。
多様なビデオ生成
歌う
単一のキャラクター画像と音声オーディオ(例えば歌唱オーディオ)を入力することで、EMO2は豊かな表情と多様な身体姿勢を持つ仮想人物の歌唱ビデオを生成し、高い表現力を示します。
話す
EMO2は複数言語の音声入力をサポートし、オーディオ内の音調変化を直感的に識別し、画像に命を与え、ダイナミックで表現力豊かな仮想人物の話し方のビデオを生成します。
手のダンス
EMO2は複雑で滑らかな手の動きを生成でき、仮想人物に生命を吹き込み、生き生きとしたパフォーマンスを提供します。
役割演技
EMO2は指定されたキャラクターが映画やゲームシーンで関連する脚本を演じることができ、キャラクター設定に基づいて性格特性に合った正確な演技内容を表現できます。
方法
チームの方法は、人間の運動とロボットの運動の類似性にインスピレーションを得ています。ロボットの運動と同じく、人間の運動は通常、「エンドエフェクタ」(End-Effector, EE)をコアドライバーとして機能します。具体的には、手の動き(EE)は目標状況に対して計画され、身体の残りの部分は逆運動学(Inverse Kinematics)の原理に基づいて手の動きに協調して調整されます。
この方法は、人間の運動の計画と調整プロセスを抽象化し、より自然なジェスチャーや身体の動きを生成するための理論的基盤を提供します。
比較