ビデオの再レンダリング - ビデオの全体的なスタイルと局所的なテクスチャの時間的一貫性を維持する

今日読んだ論文は「Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation」です。

https://arxiv.org/abs/2306.07954

コードはまだオープンソース化されていませんが、まずは論文を読んでみることができます。

大規模なテキストから画像へのdiffusionモデルは、すでに高品質な画像生成において優れています。例えば、Stable Diffusionはますます多くの人々に利用されています。しかし、これらのモデルをビデオ領域に応用する際には、ビデオフレーム間の時間的一貫性を確保することが依然として大きな課題です。「RERENDER A VIDEO: ZERO-SHOT TEXT-GUIDED VIDEO-TO-VIDEO TRANSLATION」という論文では、画像モデルをビデオに適応させるための新しいzero-shotテキストガイド型ビデオ・トゥ・ビデオ変換フレームワークが提案されています。

このフレームワークは2つの部分で構成されています:キーフレーム変換と全ビデオ変換です。

  1. 適応されたdiffusionモデルを使用してキーフレームを生成し、階層的な跨フレーム制約を適用して形状、質感、色の一貫性を強制します。
  2. 時間に敏感なパッチマッチングとフレームブレンドにより、キーフレームを他のフレームに伝播します。

このフレームワークは、再学習や最適化を行わずに(低コストで)グローバルスタイルと局所的質感の時間的一貫性を実現します。この適応性は既存の画像diffusion技術と互換性があり、LoRAを使用した特定テーマのカスタマイズや、ControlNetによる制御も可能です。多数の実験結果は、我々が提案するフレームワークが、高品質かつ時間的に一貫したビデオの生成において、既存の手法よりも効果的であることを示しています。

本論文では、事前学習済みの画像diffusionモデルに対して、階層的な跨フレーム制約を提案し、一貫性のあるビデオフレームを生成します。我々の主要なアイデアは、光流を用いて密集した跨フレーム制約を適用することであり、その中で以前にレンダリングされたフレームが現在のフレームの低レベルな参照となり、最初にレンダリングされたフレームがアンカーとして機能し、レンダリングプロセスを規定して初期の外観からの逸脱を防ぎます。diffusionサンプリングの異なる段階で階層的な跨フレーム制約が実現されます。グローバルスタイルの一貫性(跨フレームアテンション)だけでなく、我々の方法は早期、中期、後期の各段階でそれぞれ形状(形状認識跨フレーム潜在融合)、質感(ピクセル認識跨フレーム潜在融合)、色(色認識適応的潜在調整)の一貫性を強制します。この革新的かつ軽量な修正により、グローバルおよび局所的な時間的一貫性が達成されます。