今日は、「World Model on Million-Length Video And Language With Blockwise Ring Attention」という論文を読みました。これはUC Berkeleyで行われた大規模な世界モデルに関する研究です。
概要
Large World Model (LWM) は、汎用の大規模コンテキスト多モーダル自己回帰モデルです。このモデルはRingAttentionを使用し、多様な長尺ビデオや本からなる大規模データセット上で訓練されます。これにより、言語、画像、ビデオの理解と生成が可能です。
現在の言語モデルは、文章で簡単に表現できない世界の理解において限界があり、複雑で長期的なタスクも処理するのが難しいです。ビデオシーケンスは、言語や静止画に欠けている貴重な時間情報を持ち、それらは言語と組み合わせてモデリングする魅力的な選択肢となります。このようなモデルは、人間のテキスト知識や物理世界の理解を発展させ、AIが人類を支援する能力をさらに広げることができます。
しかし、数百万のビデオや言語シーケンスのラベルから学習することは、メモリ制約、計算の複雑さ、および限られたデータセットのため、課題を抱えています。これらの課題に対応するために、このチームは大規模かつ多様なビデオと本のデータセットを統合し、Blockwise RingAttention技術を使用して長シーケンスをスケーラブルに訓練し、コンテキストサイズを4Kから1Mトークンまで段階的に増やしました。
LWM機能
LWMは、1M以上のマークアップのコンテキストで事実を正確に検索できます。 LWMは、1時間以上のYouTube動画に関する質問に答えられます。 LWMは画像を使用してコミュニケーションが可能です。 LWMはテキストからビデオや画像を生成することができます。
Large World Model トレーニングの説明
この図は、Large World Modelのマルチモーダルなトレーニングプロセスを示しています:
第一段階では、LLMコンテキストの拡張が行われ、Books3データセットを使用してコンテキストサイズを32Kから1Mに増やします。 第二段階は視覚-言語トレーニングで、異なる長さの視覚およびビデオコンテンツのトレーニングに焦点を当てています。
円グラフは、495B個のトークンが画像、短編および長編ビデオにどのように分配されているか、また33B個のテキストデータトークンの分布を詳細に示しています。下部のパネルには、複雑なマルチモーダルな世界に関するクエリを理解し応答するためのインタラクティブな能力が示されています。
さらに多くの結果(対比含む)
LWMがYouTube動画に回答中的の質問
テキストから画像を生成
テキストから動画を生成
A ball thown in the air
Slow motion flower petals falling on the ground
A burning campire in a forest
A boat sailing on a stormy ocean