先週、Googleは論文「Genie: Generative Interactive Environments」を発表しました。これは、未ラベルのインターネット動画から無教師方式で訓練された最初の生成型インタラクティブ環境です。このモデルは、テキスト、合成画像、写真、さらにはスケッチの説明に基づいて、さまざまな操作可能な動作を持つ仮想世界を生成できます。
110億パラメータを持つGenieは、一種の基礎的な世界モデルと見なすことができます。それは、時空間ビデオトークナイザー、自己回帰ダイナミックモデル、そしてシンプルで拡張性のある潜在的なアクションモデルで構成されています。訓練中に実際のアクションラベルや、通常世界モデルの文献で見られる他のドメイン固有の要件を使用しなかったにもかかわらず、Genieはユーザーに生成された環境でフレームごとに操作できる機能を提供します。さらに、学習された潜在的なアクション空間は、訓練中に見たことのないビデオから行動を模倣し、汎用エージェントの将来の訓練への道を開きます。
概要
Genieは、20万時間以上の2Dプラットフォームゲームのビデオデータセットを使用し、110億パラメータの世界モデルを訓練しました。無教師学習を通じて、Genieはキャラクターを一貫した方法で制御できる多様な潜在的なアクションを習得しました。
このモデルは、任意の画像をプレイ可能な2D世界に変換することができます。例えば、GenieはSenecaやCaspianといった史上最年少の世界創造者の美しい芸術作品など、人間がデザインした創作を生き生きと動かすことができます。
Genieが学習した潜在的なアクション空間は、多様で一貫性があり、かつ説明可能である。通常、数回の試行後、人間はそれが意味のあるセマンティックなアクション(左に歩く、右に歩く、ジャンプするなど)にマッピングされるのを理解できる。
技術
Genieは、時空ビデオトーカナイザー、自己回帰動的モデル、および潜在アクションモデルの組み合わせを使用して、制御可能なビデオ環境を生成する。動作ラベルは不要で、ビデオデータのみを使用して訓練され、無監督学習によってフレーム間の潜在的なアクションを推論し、生成されたビデオシーケンスをフレームごとに制御する。視覚トランスフォーマー(Vision Transformer)によるビデオ処理の二次メモリコストを緩和するために、Genieはすべてのコンポーネントでメモリ効率の高いSTトランスフォーマーを使用している。このモデルには次の3つの部分が含まれる:ビデオトーカナイザー、潜在アクションモデル、および動的モデル。
:ビデオフレームを分析し、それを一連の表現的なトークンに変換することで、ビデオ内の時空間情報を捉える。
:トレーニングデータに明示的にラベル付けされていない異なるフレーム間のアクションや変化を学習し、推論します。
:現在のフレームと推論された潜在アクションに基づいて次のビデオフレームを予測し、ビデオシーケンスの次のフレームを生成します。
この構造設計により、Genieは外部のアノテーションに依存することなく、ビデオ自体から動的環境を制御および生成する方法を学習でき、複雑なビデオシミュレーションやインタラクティブな体験を作成するための強力な基盤を提供します。
モデルを訓練する際の鍵はデータと計算能力にあります。チームは、ビデオデータセット内の高品質な部分を選別するために専用の分類器を訓練し、大規模な実験を行いました。実験結果は、モデルのパラメータ数とバッチサイズが増加するにつれて、モデルの性能も徐々に向上することを示しました。最終的に開発されたモデルには110億個のパラメータが含まれています。
結果
画像プロンプトからの再生:テキストから画像へのモデルによって生成された画像、手描きのスケッチ、または現実世界の写真を使用してGenieをプロンプトすることができます。どの場合でも、ここではプロンプトフレームと4回連続した潜在的なアクション後の2番目のフレームを示しています。どの場合でも、キャラクターが明確に動いているのが見られますが、一部の画像は視覚的にデータセットと明らかに異なります。
Genieのモデルは幅広い適用性を持ち、2次元に限定されるものではありません。チームはさらにロボットデータ(RT-1)でGenieを訓練しました。これらのデータには動作ラベルが含まれていませんが、それでもその基盤上で制御可能な動作を学習できるシミュレーション環境を作り出すことができました。これは、人工一般知能(AGI)向けの汎用的世界モデルを開発するための一歩として有望な成果です。
Genieモデルの現在の動作速度は1FPS(一秒間あたりのフレーム数)であり、これはリアルタイムでのプレイ可能性とはまだ少し距離があります。しかし、1FPSはリアルタイムインタラクションやゲーム体験には十分ではないものの、モデルが処理する複雑さと深さを考えれば、非常に印象的な達成と言えます。