AniPortrait - 音声駆動のリアリスティックな肖像アニメーション合成技術

今日は、騰訊の今週の論文——AniPortraitについて見てみましょう。これは音声駆動型のリアリスティックな肖像アニメーション合成技術です。

AniPortraitは、音声と参照用の肖像画像を使用して高品質なアニメーションを生成することを目指しています。

フレームワークは二つの段階に分かれて動作します。

  1. 音声情報から3Dの顔メッシュと頭部の姿勢を抽出し、これら二つの要素を2Dのキーポイントに投影します。
  2. 拡散モデルを使用してこれらの2Dキーポイントを連続的な肖像ビデオに変換します。この二つの段階は、私たちのフレームワーク内で同時に訓練されます。

実験結果は、AniPortraitが顔の自然さ、ポーズの多様性、視覚的品質において優れており、観客に強化された感覚体験を提供することを示しました。また、柔軟性と制御可能性において大きな潜在力を発揮し、顔の動作編集や顔の再現などの分野への応用に非常に適しています。

多様な生成ビデオの展示

  • Self driven
  • Face reenacment
  • Audio driven