最近、新しい論文『Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation』が公開されました。コードはまだオープンソース化されていないので使用することはできませんが、論文を先に確認できます:https://arxiv.org/abs/2311.17117
まず、その効果を見てみましょう
彼らの方法は以下の通りに要約されます:
姿勢シーケンスはまずPose Guiderによって符号化され、複数のフレームノイズと融合されます
、Denoising UNetによるビデオ生成のデノイジングプロセスです。Denoising UNetの計算ブロックは、空間注意、クロス注意、および時間注意で構成されており、右側の破線枠内に示されています。参照画像の統合には二つの側面があります:
ReferenceNetを使用して詳細な特徴を抽出し、これを空間注意に使用します。 CLIP画像エンコーダーを使用して語義特徴を抽出し、これをクロス注意に使用します。時間注意は時間軸上で動作します。
VAEデコーダーは結果をビデオクリップに復号化します。
さまざまな効果を見てみましょう:
実体の人
卡通の人
人形
異なる技術手法の比較も見てみましょう: