自分が一部門の仕事をしている気がするのは、元の会社に狂ったように応援し、GoogleのAI進展を様々な形でフォローアップすることだ。確かに、元の会社に対してはまだ深い感情があり、GoogleのAIがますます強くなることを願っている。
このWeChat公式アカウントの記事では、Googleが昨日発表したLUMIEREについて更新します。
まずは効果を見てみましょう。
Text-to-Video
Image-to-Video
Stylized Generation
Video Stylization
Cinemagraphs
Video Inpainting
概要
Lumiereは、リアルで多様かつ一貫性のある動きを持つビデオを合成することを目指したテキストからビデオへのディファージョンモデルであり、これはビデオ合成における主要な課題の一つです。Lumiereは、単一のモデル通過でビデオの全時間軸を一度に生成できる時空間U-Netアーキテクチャを導入しました。これは既存のビデオモデルとは異なり、遠隔のキーフレームを合成し、その後に時間的超解像処理を行う方法で、その本質的な仕組みにより全体的な時間的一貫性が難しくなるものです。空間および(特に)時間のダウンサンプルとアップサンプルを行い、事前に学習されたテキストから画像へのディファージョンモデルを利用することで、Lumiereのモデルは直接低解像度のフルフレームレートのビデオを生成し、複数の時空間スケールで処理を行います。
論文リンク:https://arxiv.org/pdf/2401.12945.pdf
生成されたビデオでの時間的一貫性の維持
LumiereのモデルとImagen Video(Hoら、2022a)による周期的運動のビデオ生成の代表例です。Lumiereの画像からビデオへの生成機能を使用して、Imagen Videoによって生成されたビデオの最初のフレームを条件とし、対応するX-Tスライスを可視化します。そのカスケード設計と時間的超解像モジュールにより、Imagen Videoはグローバルに一致する反復運動の生成において困難を抱えています。これらのモジュールは、時間ウィンドウ内で常に一貫してエイリアシングの曖昧さを解決することが難しいためです。
Lumiereプロセス
以前の作品で最も一般的な手法との主な違いは次の通りです:
一般的な手法には、遠隔のキーフレームを生成するためのベースモデルと、フレームを補完するための一連の時間的超解像(TSR)モデルが含まれます。非重複ウィンドウ上に空間的超解像(SSR)モデルを適用して高解像度の結果を得ます。
これに対し、Lumiereフレームワーク内のベースモデルはすべてのフレームを一度に処理し、TSRモデルのカスケードが必要ないため、Lumiereは全体的に一貫した運動を学習することができます。高解像度のビデオを得るために、Lumiereは重複ウィンドウ上でSSRモデルを適用し、MultiDiffusion(Bar-Talら、2023)を使用して予測を結合することで一貫した結果を得ます。
STUNetアーキテクチャ
事前学習済みのT2I U-Netアーキテクチャ(Hoら、2022a)を「膨張」させ、時空間UNet(STUNet)とし、これが空間および時間においてビデオをダウンサンプルおよびアップサンプルできるようになります:
STUNet活性化マップの概念図;色は異なる時間モジュールによって生成された特徴を示します。
畳み込みに基づくモジュールで構成され、事前学習済みのT2I層に続いて分解された時空間畳み込みが続きます。
最も粗いU-Net層にある注意機構に基づくモジュールで、事前学習済みのT2I層に続いて時間的注意が続きます。ビデオ表現が最も粗い層で圧縮されるため、Lumiereは計算コストを制限するためにいくつかの時間的注意層を重ねています。