百度のHallo3 - 音声駆動の肖像画像アニメーション

),最近彼らはHallo3を発表しました。

効果デモ

方法デモ

リファレンス画像、音声シーケンス、およびテキストプロンプトが与えられると、この手法は前面または異なる視点の動的アバターを生成し、長時間にわたってアイデンティティの一貫性を維持します。さらに、動的な前景と背景要素を組み合わせることで、時間的一貫性と高い視覚忠実度を確保しています。

方法概要

この手法は、リファレンス画像、音声シーケンス、テキストプロンプトを入力することで、時間的一貫性と高い視覚忠実度を持つビデオ出力を生成します。Hallo3は、Casual 3D VAE、T5、Wav2Vecモデルを使用して、それぞれ視覚、テキスト、音声特徴を処理します。アイデンティティ参照ネットワークは、入力されたリファレンス画像とテキストプロンプトからアイデンティティ特徴を抽出し、アニメーションを制御しつつ主体の外観の一貫性を保ちます。音声エンコーダーは唇の動きと同期した運動情報を生成し、顔エンコーダーは顔の特徴を抽出して表情の一貫性を保ちます。3D全注意モジュールと音声注意モジュールは、去噪ネットワーク内でアイデンティティと運動データを結合し、高忠実度で時間的に一貫した制御可能な動的ビデオを生成します。

音声条件化戦略

  1. 自己注意
  2. 適応正規化
  3. クロス注意

アイデンティティ条件化戦略

FEとは顔エンコーダーを指します。クロス注意戦略が最も優れた結果を示しました:
  1. 顔注意
  2. 顔適応正規化
  3. アイデンティティ参照ネットワーク
  4. 顔注意とアイデンティティ参照ネットワーク

シーン

  • 動的シーン
  • 多様な頭部ポーズ
  • 装飾品を付けた肖像画
  • 物体とのインタラクションのある肖像画