GoogleのVideoPoet、効果抜群のゼロショットビデオ生成LLM

）。本日、Google公式がVideoPoetをリリースしました。これはゼロショット学習に対応した高度な動画生成大規模言語モデル（LLM）であり、その効果は非常に優れています。

VideoPoetには以下の7つの動画生成能力があります：

：単純な文章記述を生き生きとした動画コンテンツに変換します。
：静止画像から動的な動画を作成します。
：動画に異なる視覚的スタイルを与えます。
：高度な動画編集や修正を行います。
：動画の端にコンテンツを追加します。
：動画内の領域にコンテンツを追加します。
：動画に自動的に適切な音楽を付加します。

VideoPoetの詳細論文：https://storage.googleapis.com/videopoet/paper.pdf

VideoPoetの動作原理は簡潔かつ効果的です。事前に訓練されたMAGVIT V2ビデオトークナイザーとSoundStreamオーディオトークナイザーを使用し、画像、動画、オーディオクリップを一連の離散コードに変換します。これらのコードはテキストベースの言語モデルと互換性があります。自己回帰型言語モデルを通じて、VideoPoetはビデオ、画像、オーディオ、テキストモダリティ間での次のビデオまたはオーディオトークンの予測を学習します。

さらに、VideoPoetはテキストからビデオ、画像からビデオ、ビデオフレーム継続、ビデオ内外塗り、ビデオスタイル化、およびビデオからオーディオへの多モダリティ生成学習目標を導入しています。これらのすべてのタスクは組み合わせることができ、追加のゼロショット能力を実現します。

VideoPoetのアーキテクチャは超高解像度ビデオ生成をサポートしており、マルチアクシス注意とビデオモデリングを採用し、条件は低解像度トークンとテキスト埋め込みに基づいています。このシンプルなアプローチは、言語モデルが時間的に高い一貫性を持ってビデオを合成・編集できる可能性を示しています。VideoPoetはビデオ生成において最先端のパフォーマンスを示しており、特に広範囲で興味深く高忠実度の動きを生成することが得意です。

現在利用できる場所はありませんが、動画の効果は素晴らしく、期待が高まっています。