昨日、スタンフォード大学、グーグル、およびGITの共同研究チームが論文を発表しました。第一著者は李飛飛(Li Feifei)の学生であるAgrim Guptaです。論文のタイトルは「拡散モデルを使用した写実的なビデオ生成 Photorealistic Video Generation with Diffusion Models」です。
論文リンク:https://arxiv.org/abs/2312.06662。この論文では、W.A.L.T(Diffusionモデルによる写実的ビデオ生成)について説明しています。このモデルは、共有潜在空間で画像とビデオの生成訓練を行うTransformerモデルです。
現在、W.A.L.Tは公開されていませんが、いくつかのデモビデオを視聴することでその効果を確認することができます。
さらに多くのビデオ効果のデモは以下からアクセスできます:https://walt-video-diffusion.github.io/samples.html。
W.A.L.Tの設計理念には次の2つの重要なポイントがあります:
共有潜在空間で画像とビデオを圧縮するために因果エンコーダーを使用します。 メモリとトレーニング効率を向上させるために、潜在空間での空間および時間の生成モデリングに窓注意機構に基づくTransformerアーキテクチャを使用します。
現在、このモデルは以下の3種類の効果変換をサポートしています:
テキストからビデオ
画像からビデオ
3Dエフェクト生成