アリババの Tora 対 腾訊(テンセント)の MotionCtrl - 生成動画における物品軌道の制御

アリババのToraとテンセントのMotionCtrlを比較すると、どちらもビデオ内で物体の軌道を制御するために使用されます。

  • :テンセントのMotionCtrlは昨年末にオープンソース化されました。
  • :アリババのToraに関連する論文は先週公開されましたが、現時点ではオープンソース化されていません。

効果の比較:

Tora

MotionCtrl

方法の比較:

Toraアーキテクチャの概要

  • DiTに基づくビデオ生成における軌道制御を実現するために、Toraは2つの新しいモジュールを導入しました:軌道抽出器(Trajectory Extractor)と運動ガイド融合器(Motion-guidance Fuser)。
  • :3D運動VAEを使用して、軌道ベクトルをビデオクリップと同じ潜在空間に埋め込み、効果的に連続フレーム間で運動情報を保持します。その後、階層的な運動特徴を抽出するために畳み込み層を積み重ねます。
  • :適応正規化層を利用して、これらの多層の運動条件を対応するDiTモジュールにシームレスに注入し、生成されたビデオが定義された軌道に一貫して従うことを保証します。
  • Toraの手法はDiTのスケーラビリティと一致しており、高解像度で運動を制御可能な長時間のビデオを作成できます。

MotionCtrlアーキテクチャ

  • MotionCtrlはLVDMのディノイジングU-Net構造を拡張し、カメラ運動制御モジュール(CMCM)と物体運動制御モジュール(OMCM)を追加しました。
  • :カメラ姿勢シーケンス(RT)をLVDMの時間トランスフォーマーに統合し、RTを第二の自己注意モジュールの入力に追加し、カスタムの軽量全結合層を適用してカメラ姿勢特徴を抽出して後続処理に供します。
  • :Convolution層とダウンサンプリングを利用してTrajsから多尺度特徴を導出し、これらの特徴を空間的にLVDMのConvolution層に統合して物体運動を誘導します。さらに、与えられたテキストプロンプトに対して、LVDMはノイズからそのプロンプトに対応するビデオを生成し、背景と物体運動は指定されたカメラ姿勢と軌跡を反映します。