百度のHallo - 音声駆動の肖像画像アニメーション

今日は百度のHalloを見てみましょう。

提案されたネットワークアーキテクチャは、拡散に基づく生成モデル、UNetベースのデノイザー、時間的なアラインメント技術、リファレンスネットワークをシームレスに統合しています。提案された階層的な音声駆動型視覚合成は、表情やポーズの多様性に対する適応的な制御を提供し、異なるアイデンティティに対応するためのパーソナライズをより効果的にします。

シーン

クラシック映画へのオマージュ
バーチャルキャラクター
実写キャラクター
動作制御（ポーズ、表情、口元）
歌う
俳優を超えて

試用版

Huggingface でモデルを実行できます。

技術

具体的には、Hallo は肖像が含まれたリファレンス画像と対応する音声入力を統合し、肖像のアニメーションを駆動します。オプションの視覚合成ウェイトを使用して、唇、表情、姿勢のウェイトをバランスさせることができます。ReferenceNet はグローバルな視覚的テクスチャ情報のエンコードを行い、一貫性があり制御可能なキャラクター・アニメーションを実現します。顔と音声エンコーダーはそれぞれ高忠実度の肖像アイデンティティ特徴を生成し、音声を動作情報にエンコードします。階層的な音声駆動型視覚合成モジュールは、音声と視覚コンポーネント（唇、表情、姿勢）の間の関係を構築し、拡散プロセスでは UNet デノイザーを使用します。

対比

既存の肖像画像アニメーション手法とHDTFデータセットにおける定量的な比較を行った。Halloが提案する手法は、高品質で時間的に一貫性のある話す頭部アニメーションを生成し、優れたリップシンク性能を示した。

HDTFデータセット上で既存手法との定性的な比較を行った。