Animate Anyone 人物画像からアニメ生成

最近、新しい論文『Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation』が公開されました。コードはまだオープンソース化されていないので使用することはできませんが、論文を先に確認できます：https://arxiv.org/abs/2311.17117

まず、その効果を見てみましょう

彼らの方法は以下の通りに要約されます：

姿勢シーケンスはまずPose Guiderによって符号化され、複数のフレームノイズと融合されます

、Denoising UNetによるビデオ生成のデノイジングプロセスです。Denoising UNetの計算ブロックは、空間注意、クロス注意、および時間注意で構成されており、右側の破線枠内に示されています。参照画像の統合には二つの側面があります：

ReferenceNetを使用して詳細な特徴を抽出し、これを空間注意に使用します。
CLIP画像エンコーダーを使用して語義特徴を抽出し、これをクロス注意に使用します。時間注意は時間軸上で動作します。

VAEデコーダーは結果をビデオクリップに復号化します。

さまざまな効果を見てみましょう：

実体の人

卡通の人

人形

異なる技術手法の比較も見てみましょう：