アリババのDreaMoving:拡散モデルに基づく人物ビデオ生成フレームワーク

阿里巴巴は先月、論文「DreaMoving:拡散モデルに基づく人物ビデオ生成フレームワーク」を発表しました。

コードは提供されていませんが、論文とデモ動画は公開されています。https://dreamoving.github.io/dreamoving/

概要

DreaMovingは、高品質なカスタマイズされた人物ビデオを生成するための拡散モデルベースの制御可能なビデオ生成フレームワークです。具体的には、ターゲットのアイデンティティと姿勢シーケンスが与えられると、DreaMovingはそのアイデンティティが任意のシーンで指定された姿勢シーケンスに従って踊るビデオを生成します。これを実現するために、DreaMovingは動作制御用の「ビデオコントロールネット(Video ControlNet)」とアイデンティティの一貫性を維持するための「コンテンツガイド(Content Guider)」を提案しています。DreaMovingが提案するモデルは使用が簡単であり、多様な結果を生成するためにほとんどのスタイル化された拡散モデルに適応することができます。

4つの入力方法

  • テキスト入力のDreaMoving結果です。


  • テキスト入力と顔画像のDreaMoving結果です。


  • 顔と服装の画像を入力したDreaMoving結果です。


  • スタイル化された画像を入力したDreaMoving結果です。


効果の表現

DreaMovingは、与えられたガイドシーケンスとシンプルなコンテンツの説明(例えばテキストやリファレンス画像)を入力することで、高品質で高忠実度のビデオを生成することができます。具体的には、DreaMovingは顔のリファレンス画像を通じてアイデンティティ制御において正確性を示し、姿勢シーケンスを通じて運動操作を精密に実現しています。さらに、特定のテキストプロンプトによってビデオの全体的な外観に対する包括的なコントロールも可能にしています。

DreaMovingは、現実の生活では見られない情景における汎化能力を示しました。

アーキテクチャの概要

DreaMovingの全体像です。ビデオコントロールネット(Video ControlNet)は、各U-Netブロック後に動作ブロックを注入するイメージコントロールネットです。ビデオコントロールネットは、コントロールシーケンス(姿勢や深度)を処理して追加の時間残差を生成します。ディノイズU-Netは、動画生成のために動作ブロックを追加した派生的な安定拡散U-Netです。コンテンツガイド(Content Guider)は、入力されたテキストプロンプトと外観表現(顔や衣服など、オプション)を内容埋め込みに変換し、クロスアテンションに使用します。

Demo

huggingfaceにて https://huggingface.co/spaces/jiayong/Dreamoving