。今日は彼らが4月に発表した論文、VASAを見てみましょう。VASAは、単一の静止画像と音声オーディオ断片に基づいて、魅力的な視覚的感情スキル(VAS)を持つリアルな話している顔を生成するフレームワークです。最初のモデルであるVASA-1は、オーディオの正確な同期による口の動きだけでなく、広範な顔の微妙な変化や自然な頭部の動きを捉え、リアリティと生き生きとした印象を強化します。
シーン:
リアリズムと生き生き感
1分の長さのオーディオ入力の例。 多様なオーディオ入力を持つ短い例が多い。
生成の制御可能性
異なる主要な視線方向での生成結果(それぞれ正面、左側、右側、上向き)。 異なる頭部距離比率の生成結果。 異なる感情シフトの生成結果(それぞれ中立、喜び、怒り、驚き)。
分布外の汎化能力
解離能力
同じ入力写真における異なる運動シーケンスの結果。 同じ運動シーケンスにおける異なる写真の結果。 姿勢と表情編集
リアルタイム効率
VASA-1の方法は、オフラインバッチモードでは512x512ピクセルサイズのビデオフレームを45fpsで生成し、オンラインストリーミングモードではフレームレートが40fpsに達し、前処理遅延はわずか170msです。これらの結果は、NVIDIA RTX 4090 GPU一台を搭載したデスクトップコンピュータ上で評価されました。
全体的なフレームワーク
VASA-1の方法は、直接ビデオフレームを生成するのではなく、音声その他の信号に基づいて隠れ空間内で全体的な顔の動きや頭部の動きを生成します。これらの運動隠れコードに基づいて、VASA-1の方法は顔デコーダを通じてビデオフレームを生成し、顔デコーダはさらに入力画像から抽出された外見およびアイデンティティ特徴を入力として使用します。
この目標を達成するために、まず顔の隠れ空間を構築し、顔エンコーダとデコーダを訓練しました。現実生活の顔ビデオ上で訓練されるために、表現豊かで解離された顔の隠れ学習フレームワークが慎重に設計されました。その後、シンプルながらも強力な拡散トランスフォーマーを訓練して運動分布をモデリングし、テスト時には音声その他の条件に基づいて運動隠れコードを生成します。
モデルの主な特徴と利点
:生成された口の動きはオーディオと完全に同期しています。 :顔の微妙な変化や自然な頭部の動きを捉え、リアリズムと生き生き感を強化します。 リアルな顔と頭部の動きを持つ高品質なビデオを生成します。 :512x512解像度のビデオをオンラインで生成し、フレームレートは最大40 FPSで、立ち上げ遅延は非常に低いです。 :広範な実験と新しい指標の評価を通じて、VASA-1はこれまでの手法よりも各次元で著しく優れています。