)が紹介されてきました。しかし、これらの手法はキャラクターとその環境を適切に関連付けることができませんでした。この問題を解決するために、アリババは環境との相互作用を通じてキャラクターのアニメーションを生成する「Animate Anyone 2」を導入しました。
ソースビデオから運動信号を抽出するだけでなく、環境の表現も捉え、それを条件付き入力として使用します。環境はキャラクターを除いた領域として定義され、「Animate Anyone 2」のモデルはキャラクターを生成し、環境との一貫性を保ちます。チームは、キャラクターと環境の関係をより効果的に記述するための形状非依存のマスク戦略を提案しました。さらに、物体間のインタラクションの忠実度を向上させるために、物体ガイドを使用してインタラクション物体の特徴を抽出し、空間的な混合を通じてこれをデノイジングプロセスに注入します。アリババはまた、モデルが多様な運動パターンを処理できるようにするためのポーズ調整戦略を導入しました。実験結果は、この手法の優位性を証明しています。
動き
Animate Anyone 2は、従来の運動信号のみを使用してキャラクターのアニメーションを生成する方法とは異なり、駆動ビデオから環境表現も抽出することで、キャラクターが環境とどのように相互作用するかを表現します。
手法
上図は「Animate Anyone 2」のフレームワークです。ソースビデオから環境情報をキャプチャし、環境はキャラクターを含まない領域として定義され、モデルの入力として使用されます。これにより、キャラクターと環境の融合がエンドツーエンドで学習できます。物体インタラクションを維持するために、チームはキャラクターと相互作用する物体の特徴を注入しました。これらの物体特徴は軽量の物体ガイドによって抽出され、空間的混合を通じてデノイジングプロセスに注入されます。多様な運動を処理するために、チームは身体四肢間の空間関係を更好地表すためのポーズ調整法を提案しました。
結果
環境とのインタラクション
Animate Anyone 2は、状況の一貫性を持つ環境インタラクションキャラクターの生成において顕著な能力を示しました。キャラクターとシーンのシームレスな融合、および強力なキャラクター-物体インタラクションが実現されています。ダイナミックな動き
Animate Anyone 2は複雑な動きを処理する強力な能力を持ちながら、キャラクターの一貫性を確保し、環境との合理的なインタラクションを維持します。キャラクター間のインタラクション
Animate Anyone 2はキャラクター間のインタラクションを生成でき、その動作の合理性を確保し、周囲の環境と一貫性を保ちます。
比較
Viggleとの比較
Viggleは提供されたキャラクター画像を使ってビデオ中のキャラクターを置き換えることができ、これはAnimate Anyone 2の適用シーンに類似しています。結果を最新のViggle V3と比較しました。Viggleの出力はキャラクターと環境の融合が粗く、自然な動きに欠けており、キャラクターと環境のインタラクションを捉えていません。一方で、Animate Anyone 2の結果はより高い忠実度を示しています。
MIMOとの比較
MIMOは、Animate Anyone 2のタスク設定と最も関連性のある方法であり、ビデオ中の人物、背景、遮蔽物を深層分解し、それらの要素を再構成して人物ビデオを生成します。「Animate Anyone 2」はMIMOよりも堅牢性と詳細の保持において優れています。