DisPoseは、北大、中科大、清华大、香港科大が共同で開発した、モーションフィールドのガイドとキーポイント対応を用いた人間画像アニメーション手法です。
概要
可控な人間画像アニメーションは、リファレンス画像とドライブビデオを使用してアニメーションビデオを生成することを目指します。スパースガイド(例えば骨格ポーズ)が提供する制御信号は限られているため、最近の研究では深度マップなどの追加的な密集条件を導入して動きの一致を確保することが試みられています。しかし、リファレンス人物の体型とドライブビデオに大きな差がある場合、この厳密な密集ガイドは生成されるビデオの品質に悪影響を与えることがあります。本論文では、DisPoseという手法を提案し、追加の密集入力を必要とせず、より汎用的かつ効果的な制御信号を掘り起こすことを目指しています。具体的には、人間画像アニメーションにおけるスパースな骨格ポーズをモーションフィールドのガイドとキーポイント対応に解離させます。
詳細には、DisPoseはスパースなモーションフィールドとリファレンス画像から密集型のモーションフィールドを生成し、これにより領域レベルのガイドを提供しつつ、スパースな姿勢制御の汎化能力を維持します。さらに、DisPoseはリファレンス画像から姿勢キーポイントに対応する拡散特徴を抽出し、これらのポイント特徴をターゲット姿勢に伝達することで独自のアイデンティティ情報を提供します。既存モデルへの円滑な統合のために、DisPoseはプラグアンドプレイの混合ControlNetを提案しており、既存モデルのパラメータを凍結しながら、生成ビデオの品質と一貫性を向上させます。多数の定性的および定量的実験により、DisPoseが現在の方法よりも優れていることが示されています。
例
技術フレームワーク
DisPoseは、プラグアンドプレイ型のガイドモジュールであり、姿勢ガイドを解耦するために使用され、骨格ポーズ図とリファレンス画像のみを使用して堅牢な制御信号を抽出します。追加の密集入力は不要です。具体的には、DisPoseは姿勢ガイドを運動場推定とキーポイント対応に分解します。
DisPoseは、骨格ポーズを利用して疎な運動場を計算します。 DisPoseは、リファレンスに基づく密集運動場を導入し、リファレンス画像上の条件付き運動伝播を通じて領域レベルの運動信号を提供します。外観の一貫性を強化するために、DisPoseはリファレンス画像内のキーポイントに対応する拡散特徴を抽出し、運動軌道における多尺度の点対応関係を計算することで、これらの点特徴を目標ポーズに伝達します。構造上、DisPoseはControlNetに類似した方法でこれらの解耦された制御信号を実現し、既存の手法に統合します。 運動場と点埋め込みが潜在的なビデオ拡散モデルに注入されることで、正確なヒューマンイメージアニメーションが生成されます。