今日は百度のHalloを見てみましょう。
提案されたネットワークアーキテクチャは、拡散に基づく生成モデル、UNetベースのデノイザー、時間的なアラインメント技術、リファレンスネットワークをシームレスに統合しています。提案された階層的な音声駆動型視覚合成は、表情やポーズの多様性に対する適応的な制御を提供し、異なるアイデンティティに対応するためのパーソナライズをより効果的にします。
シーン
クラシック映画へのオマージュ バーチャルキャラクター 実写キャラクター 動作制御(ポーズ、表情、口元) 歌う 俳優を超えて
試用版
Huggingface でモデルを実行できます。
技術
具体的には、Hallo は肖像が含まれたリファレンス画像と対応する音声入力を統合し、肖像のアニメーションを駆動します。オプションの視覚合成ウェイトを使用して、唇、表情、姿勢のウェイトをバランスさせることができます。ReferenceNet はグローバルな視覚的テクスチャ情報のエンコードを行い、一貫性があり制御可能なキャラクター・アニメーションを実現します。顔と音声エンコーダーはそれぞれ高忠実度の肖像アイデンティティ特徴を生成し、音声を動作情報にエンコードします。階層的な音声駆動型視覚合成モジュールは、音声と視覚コンポーネント(唇、表情、姿勢)の間の関係を構築し、拡散プロセスでは UNet デノイザーを使用します。
対比
既存の肖像画像アニメーション手法とHDTFデータセットにおける定量的な比較を行った。Halloが提案する手法は、高品質で時間的に一貫性のある話す頭部アニメーションを生成し、優れたリップシンク性能を示した。
HDTFデータセット上で既存手法との定性的な比較を行った。