以前、PikaやSoraを使用して体操のビデオを生成する試みがありましたが、結果としてすべての体操選手が「三つの頭と六つの腕」を持つ奇妙な現象が発生しました。この歪みは、現在の生成ビデオモデルにおける一般的な問題を示しています――すなわち、映像効果は良いものの、動きの連続性や現実性においてまだ不足している点です。
そして最近、Metaが公開したVideoJAMモデルは、まさにこの問題を改善するために作られました。Metaが発表した論文とデモ(現時点では使用可能にはなっていません)によると、VideoJAMモデルはピクセルレベルの画質向上に限定されず、「統合外観-運動表現」(Joint Appearance-Motion Representation)を導入することで、生成されたビデオ内の動作の自然さと連続性を確保しています。
注目に値するのは、VideoJAMは訓練データの追加的な変更やモデル規模の拡大を必要とせず、既存のどのビデオ生成モデルにも適用できるという点で、非常に汎用性が高いことです。
現時点ではMetaが提供しているのは論文とデモビデオのみであり、モデルの実際の使用はまだ公開されていません。しかし、既存のデモ効果を見る限り、VideoJAMは他の既存モデルを大幅に上回っており、特に運動の連続性において優れたパフォーマンスを発揮し、視覚効果の全体的な品質も向上させています。
VideoJAMモデルの動作原理
VideoJAMモデルの中心的な理念は、ビデオ生成モデルにより強力な運動事前知識(motion prior)を注入することにより、生成されるビデオの運動の一貫性を向上させることです。このモデルは2つの重要な段階で構成されています:

訓練段階:モデルは生成されるフレームのピクセルを予測するだけでなく、フレーム内の動きも同時に予測します。
入力されたビデオ ( x_1 ) と対応する運動表現 ( d_1 ) が与えられると、これらにはノイズが加えられ(noised)、線形層(( W_{in+} ))を通じて統一された結合潜在空間表現(joint latent representation)に埋め込まれます。その後、拡散モデル(diffusion model)がこの結合表現を処理し、2つの線形投影層(( W_{out+} ))を通じて外観(appearance)と運動(motion)をそれぞれ予測します。推論ステージ:これにより、ビデオの動作の一貫性が大幅に向上します。
モデルは「内在的ガイド(Inner-Guidance)」というメカニズムを採用しており、これはビデオの各ステップを生成する際に、モデル自身が逐次的に予測したノイズ付きの運動情報を使用して、次のビデオの予測をガイドすることで、ビデオ中の運動の連続性を大幅に向上させるものです。
VideoJAMモデルの生成効果のデモ
ここでは、Metaが最新にリリースしたVideoJAM-30Bモデルによって生成された高品質なビデオ結果を示します。テストシーンはすべて複雑な動作を含む非常に挑戦的なタスクです。
主要モデルとの定性的比較:VideoJAM-bench ベンチマーク評価
さらに、VideoJAM-bench ベンチマークを使用して、VideoJAMモデルと現在業界で最先端の専有モデル(例えばソラ、クリング および ランウェイ ジェネレーション3)と基本モデル(DiT-30B)との比較です。テスト内容は代表的な動作生成タスクから選ばれ、結果ではVideoJAMが動作の連続性と全体的なビデオ品質においてこれらの既存の最先端モデルを上回り、明显的な優位性を示しました。