昨日の騰訊の2つのリップシンクプロジェクトに続き、本日はさらに3つご紹介します。
InstructAvatar
:InstructAvatarは、テキストによる感情と動作制御を目的としたアバター生成ツールです。
リンク:https://github.com/wangyuchi369/InstructAvatar
:北京大学
シーン:
感情的な話し方の制御
顔の動きの制御
モデル構造:
InstructAvatarは、VAE H(ビデオから運動情報を分離するため)とG(音声と指示に基づいて運動潜在変数を生成する運动生成器)という2つのコンポーネントで構成されています。モデルには2種類のデータがあるため、指示と音声に対して2つのスイッチが設計されています。推論プロセスでは、VAE内の運動エンコーダーが廃棄され、反復的なガウスノイズの除去を通じて予測された運動潜在変数が得られます。ユーザーが提供した肖像画とVAEのデコーダーを使用して最終的なビデオが生成されます。
EMO
:EMOは、弱い条件のもとでAudio2Video拡散モデルを使用して表情豊かな人間の肖像ビデオを生成するツールです。
リンク:https://github.com/HumanAIGC/EMO
:阿里巴巴
シーン:
歌う
肖像画に歌わせる
異なる言語や肖像スタイル
Rap
話す
異なるキャラクターとの会話
俳優を超えたパフォーマンス
モデル構造:
EMOが提案する方法フレームワークは主に2つの段階で構成されています。最初の段階であるフレームエンコード段階では、ReferenceNetを使用して参考画像と運動フレームから特徴を抽出します。その後、拡散プロセス段階では事前に訓練された音声エンコーダーが音声埋め込みを処理します。顔領域マスクと多フレームノイズが組み合わされ、顔画像の生成を制御します。次に、骨格ネットワークを使用して去噪操作を行います。骨格ネットワーク内では、キャラクターのアイデンティティを維持し、キャラクターの動きを調整するために、参照注意と音声注意という2つの注意メカニズムが適用されます。さらに、時間モジュールを使用して時間次元を操作し、運動速度を調整します。
Follow-Your-Emoji
:Follow-Your-Emojiは、目標ランドマークシーケンスを使用してリファレンス肖像をアニメ化する拡散ベースの肖像アニメーションフレームワークです。肖像アニメーションの主要な課題は、リファレンス肖像のアイデンティティを保持しながら、目標表情を伝え、時間的一貫性とリアリズムを保つことです。
リンク:https://follow-your-emoji.github.io/
:香港大学、騰訊、清华大学
シーン:
単一の動作 + 複数の肖像
単一の肖像 + 複数の動作
モデル構造
まず、ランドマークエンコーダーを使用して表情認識ランドマークシーケンスの特徴を抽出し、これらの特徴を多フレームノイズと融合させます。
次に、進行戦略を使用して入力潜在シーケンスのフレームをランダムにマスクします。
最後に、この潜在シーケンスを融合後の多フレームノイズと連結し、それを去噪U-Netに入力してビデオを生成するための去噪処理を行います。
外観ネットワークとイメージヒント注入モジュールがモデルにリファレンス肖像のアイデンティティを維持させ、時間注意が時間の一貫性を保ちます。
訓練プロセス中、顔の微細損失がU-Netに顔と表情の生成に注目させるように導きます。
推論プロセスでは、AniPortraitを参照し、運動アラインメントモジュールを使用して目標ランドマークをリファレンス肖像とアラインメントします。その後、まずキーフレームを生成し、進行戦略を使用して長編ビデオを予測します。