騰訊のアバターを話させるための2つのモデル:V-Express と MuseTalk

アバターを話させる技術については、これまでいくつか紹介してきました:

今日はさらに騰訊(テンセント)の2つをご紹介します:

V-Express

:V-Express は、リファレンス画像、音声、および一連の V-Kps 画像で制御される会話するヘッドビデオを生成することを目指しています。

リンク:https://github.com/tencent-ailab/V-Express

:騰訊(テンセント)

3つのシーン

  1. Aの写真と別のシーンでのAの話し方の動画がある場合、モデルは与えられた動画と一致する話し方の動画を生成できます。

  2. 写真一枚と任意の話し方の音声がある場合、モデルは固定された顔に生きた口の動きを生成できます。

  3. シナリオ3 (Aの写真とBの話し方の動画)

  • モデルは固定された顔に生きた口の動きを生成できます。

  • モデルは生きた口の動きを生成し、わずかな顔の動きが伴います。

  • モデルは目標動画と同じ動作の動画を生成し、キャラクターの唇の形が目標音声に同期してマッチします。

モデル構造

V-Express の主幹は、特定条件下で入力の複数フレームのノイズ潜在変数を去噪する去噪 U-Net です。この去噪 U-Net のアーキテクチャは SDv1.5 と非常に似ていますが、主要な違いは各 Transformer ブロックに4つの注意層があり、2つではなく、最初の注意層は SDv1.5 と同じ自己注意層です。2番目と3番目の注意層は交差注意層です。2番目の注意層は参考注意層と呼ばれ、参考画像との関係をエンコードします。3番目の注意層は音声注意層と呼ばれ、音声との関係をエンコードします。これらの3つの注意層はすべて空間注意層です。最後に、4番目の注意層は運動注意層と呼ばれ、時間自己注意層であり、ビデオフレーム間の時間的関係を捕捉します。

さらに、V-Express には3つの重要なモジュールが含まれます:ReferenceNet、V-Kps Guider、Audio Projection で、それぞれ参考画像、V-Kps 画像、音声をエンコードするために使用されます。

MuseTalk

:MuseTalk は、潜空間パッチングを用いたリアルタイムで高品質なリップシンクロツールです。

リンク:https://github.com/TMElyralab/MuseTalk

:騰訊(テンセント)

シーン

  • MuseV + MuseTalk で人物写真を動かそう!
  • ビデオ吹き替え
  • 面白いビデオがたくさんあります!

モデル構造

MuseTalk は潜空間でトレーニングされ、画像は凍結されたVAEによってエンコードされ、音声は凍結されたwhisper-tinyモデルによってエンコードされます。生成ネットワークのアーキテクチャはstable-diffusion-v1-4のUNetを参考にしており、交差注意を通じて音声埋め込みを画像埋め込みに融合させます。MuseTalk が使用するアーキテクチャはStable Diffusionと非常に似ていますが、MuseTalkの独自性は拡散モデルではない点であり、潜空間内で単一ステップのパッチング操作を行っています。