GoogleのStill-Moving:少量の静止参考画像を使用してパーソナライズされたビデオコンテンツを生成

今週見たのはほとんどGoogleの製品でした😓。これらのGoogleの製品の多くは論文やデモしか公開されておらず、コードもオープンソース化されておらず、モデルもダウンロードできる場所がありません。しかし、大まかな効果を確認することができます。以下は先週Googleが発表した論文です - Still-Moving。少量の静止参考画像を使用して、Still-Movingモデルはパーソナライズされたビデオコンテンツを生成できます。

ビデオ例

パーソナライズされたビデオ生成

テキストからビデオ(T2V)モデルとテキストから画像(T2I)モデルに基づき、Still-Movingは任意のカスタムT2I重みを調整し、T2Vモデルと一致させることができます。この適合にはわずかな静止参考画像が必要ですが、T2Vモデルの運動事前情報は保持されます。以下に示すのは、パーソナライズされたT2Iモデル(例えばDreamBooth, [Ruiz et al. 2022])を適合させて実現したパーソナライズされたビデオ生成の例です。

スタイル化されたビデオ生成

Still-Moving は、StyleDrop([Sohn et al. 2023])などの事前学習されたスタイル化 T2I モデルに基づいて一貫したスタイルのビデオを生成するためにも使用できます。各行には、左側のリファレンス画像のスタイルに従いながら、T2V モデルの自然な動きを示す多様なビデオが含まれています。

ControlNet + パーソナライズされたビデオ生成

以下のビデオは、ControlNet の細かい制御と構造保持能力を Still-Moving のパーソナライズ機能と組み合わせて生成されました。

ControlNet + スタイル化ビデオ生成

Still-Moving のカスタムモデルは、ControlNet [Zhang et al. 2023] と組み合わせて使用でき、既存のモデルが与えられた T2I モデルのスタイルに一致するが、構造やダイナミクスは与えられたリファレンスビデオによって決定されるビデオを生成できるようにします。

研究方法

この手法は、カスタム T2I モデルの空間事前情報と T2V モデルが提供する運動事前情報をシームレスに統合しています。

比較

アニメートディフと比較

)モデルの結果を同じシードとプロンプトを使用して示し、Still-Moving手法の堅牢性を証明しています。Naive Injectionは通常、カスタムデータにうまく従えなかったり、著しいアーティファクトが発生したりします。「溶けた金色」スタイル(上段)では背景が歪んでおり、そのスタイル特有の溶けた滴下効果が欠けています。花栗鼠の特徴(下段)も正確に捉えられておらず(例えば頬や額の色)、またフレーム間で花栗鼠のアイデンティティが変化しています。対照的に、Still-Moving手法を使用すると、「溶けた金色」の背景はリファレンス画像と一致し、モデルは滴る動きを生成しました。同様に、花栗鼠はリファレンス画像に準じて一貫したアイデンティティを維持しています。

基準手法との定性的な比較

Still-Moving と基準手法の定性的な比較