GoogleのGenie 2:大規模な基礎世界モデル - テキストからインタラクティブな世界へ

無限の多様性を持ち、制御可能で遊び心のある3D環境を生成できる基礎世界モデルです。このモデルは、一枚のプロンプト画像からインタラクティブな世界を生成でき、人間プレイヤーやAIエージェントがキーボードとマウスを使用して相互作用することができます。

能力

では、汎用性において大きな飛躍を遂げ、非常に豊富な3D仮想世界を生成できるようになりました。

それは、ジャンプやスイムなどのあらゆる動作の結果を含む仮想世界をシミュレートすることができます。このモデルは大規模なビデオデータセットで訓練され、他の生成モデルと同様に、大規模なトレーニングを通じて多くの湧現能力を示します。例えば:

  • オブジェクトとのインタラクション
  • 複雑なキャラクターアニメーション
  • 物理効果
  • 他のエージェントの行動をシミュレートおよび予測する

動作制御と智能応答

キーボードのアクション入力に対して智能的な応答能力があり、キャラクターを正しく識別して対応する移動操作を行います。例えば、プレイヤーが方向キーを使用した場合、モデルは移動すべきものがキャラクターであり、周囲の木や雲ではないことを正確に認識します。

反実仮想シーンの生成

同じ初期フレームに基づいて異なる軌跡を生成し、多様な「反実仮」体験をシミュレートできます。これは、エージェントの訓練にさらなる可能性を与えます。同じフレームから開始し、各ビデオ行はプレイヤーの異なる動作入力によってまったく異なるシーンを表示します。

長期記憶能力

強力な記憶機能を持ち、現在の視野外にある世界の一部を記憶し、それらが再び視野に入ってきたときに正確に表示することができます。例えば:

長時間のビデオ生成と動的拡張コンテンツ

合理的な新しいコンテンツを動的に生成し、仮想世界の一貫性を最大1分まで維持できます。この生成能力により、仮想シーンは豊かで多様だけでなく、非常に連続性があります。

多様化された環境と視点の切り替え

複数の異なる視点をサポートしています、それには次のものが含まれます:

  • 一人称視点

  • 等角視点

  • 三人称ドライビングモード

この多様な視点により、研究者は異なるタスクの要件に応じて環境の表示方法を柔軟に調整できます。

複雑な3D構造の生成能力

複雑な3D視覚シーンの作成を学び、深みと詳細を持つ仮想的な建築物や地形を簡単に表示できるようになりました。

オブジェクト機能とインタラクションシミュレーション

さまざまなオブジェクト間のインタラクション動作をモデリングすることもできます。例えば:

  • 風船の破裂
  • ドアの開閉
  • 爆発するドラム缶への射撃

これらのインタラクティブな特性は、仮想シーンの現実感と没入感を高めます。

キャラクターアニメーションと行動シミュレーション

キャラクターに多様なダイナミックな行動を生成する方法をすでに習得しています。例:

  • ジャンプ
  • 走る
  • 踊る

これらのアニメーションにより、バーチャルキャラクターがより生き生きとした現実感を帯びます。

非プレイヤーキャラクター(NPC)のモデリング

他の仮想エージェントを生成するだけでなく、それらの間の複雑な相互作用もシミュレートできます。例えば:

  • 複数のキャラクター間の協力や対抗行動。

リアルな物理効果のモデリング

物理現象をシミュレート可能で、その範囲には以下のものが含まれます:

  • 水流効果

  • 煙効果

  • 重力現象

これらの効果は生成された世界にリアリティを追加します。

高度な光シャドウレンダリング能力

高品質の光影レンダリングをサポートし、次の要素が含まれます:

  • 点光源と方向光源

  • 反射効果

  • ハロー効果とカラーライト

これらの特性は視覚的な表現力をさらに向上させます。

現実の画像からインタラクティブな世界を生成

本物の写真を使用してヒントを生成し、風に揺れる草や水流などの動的効果を正確にモデリングすることができます。この能力は仮想と現実の境界をさらに曖昧にし、コンテンツ制作に全新的な可能性を提供します。

迅速なプロトタイピングと環境テスト

多様なインタラクション体験のための迅速なプロトタイピングに強力なツールを提供し、研究者が新しい環境を素早く実験し、具身AIエージェントの訓練とテストを行うことができます。

画像から多様なインタラクションシーンへ

次の状況をモデル化しました:

  • 紙飛行機の飛行
  • ドラゴンの飛行
  • 鹰の飛行
  • パラシュートによる飛行

これらのプロトタイプデザインは、Genie 2 が異なるキャラクターをアニメ化する強力な能力を証明しており、エージェント間のインタラクションシーンに豊富な探求可能性を提供しています。

コンセプトアートからインタラクティブな環境へ

Genie 2の優れた汎化能力により、コンセプトアートや手描きのスケッチを直接インタラクティブな仮想環境に変換することが可能です。これにより、アーティストやデザイナーのクリエイティブプロセスが加速し、研究者には革新的な環境プロトタイピングツールが提供されます。

描かれたシーンデザインであり、Genie 2の生成結果を示しています:

  • コンセプトデザイン -> インタラクティブな環境
  • 手描きの草図 -> 完全な仮想世界

仮想世界におけるエージェントの行動能力

Genie 2 を通じて、研究者たちは豊かで多様な環境を迅速に生成し、エージェントが新しいタスクでの動作を設計することができます。これらのタスクは、エージェントが訓練段階で見たことがないものです。

使用ヒントワードで生成されたシーン:

Prompt: "A screenshot of a third-person open world exploration game. The player is an adventurer exploring a forest. There is a house with a red door on the left, and a house with a blue door on the right. The camera is placed directly behind the player. #photorealistic #immersive"

テスト目標:

  • エージェントが受け取る命令:「青いドアを開ける」または「赤いドアを開ける」

  • タスクを完了するプロセスをシミュレーションし、エージェントの適応能力を示す

Genie 2 が生成した仮想環境において、SIMAエージェントはキーボードとマウスの入力によってこれらのインタラクション命令を完了し、较强的タスク実行能力を示しました。

「转身(そびょう)」や「家のかいに見てみる」という指示を通じて、Genie 2 が一貫した環境シーンを生成できるかどうかをテストし、その生成能力の論理性と安定性を検証します。

複雑なシーンのシミュレーションと環境判断

以下は、プロンプトに基づいて生成された複雑なシーンの例です:

Prompt: "An image of a computer game showing a scene from inside a rough hewn stone cave or mine. The viewer's position is a 3rd person camera based above a player avatar looking down towards the avatar. The player avatar is a knight with a sword. In front of the knight avatar there are x3 stone arched doorways and the knight chooses to go through any one of these doors. Beyond the first and inside we can see strange green plants with glowing flowers lining that tunnel. Inside and beyond the second doorway there is a corridor of spiked iron plates riveted to the cave walls leading towards an ominous glow further along. Through the third door we can see a set of rough hewn stone steps ascending to a mysterious destination."

これらのシーンのヒントを通じて、研究者たちはインテリジェントエージェントに次の選択を指示できます:

  1. 「階段を上る」
  2. 「植物のあるエリアに入る」
  3. 「中央の廊下を渡る」

結果:

Genie 2は多様な意思決定パスを成功裡に生成し、エージェントに豊富な探求と学習のシナリオを提供しました。

拡散モデルに基づく世界生成

これは大規模なビデオデータセットで訓練された自己回帰型潜在変数拡散モデルです。モデルは以下の主要プロセスを通じて世界生成を完了します:

  1. エンコードと動的モデリング

  • ビデオの潜在フレームはまず自動エンコーダ(autoencoder)によって処理されます。
  • その後、これらの潜在フレームは大規模なトランスフォーマーダイナミクスモデルに入力され、このモデルは大言語モデルに類似した因果マスクを使用して訓練されます。
  • 自己回帰サンプリング

    • フレームごとの自己回帰サンプリングが行われます。
    • 各フレームの生成には、以前の動作と潜在フレーム状態が組み合わされます。
  • 分類子なしガイダンス(Classifier-free Guidance)

    • 動作制御の精度を向上させるため、モデルは生成結果を最適化する分類子なしガイダンス戦略を採用しています。

    現在表示されている例はすべて蒸留されていないベースモデルからのものです。これはGenie 2の潜在能力を示すことを目的としています。蒸留後のモデルはリアルタイムのインタラクションを実現できますが、出力品質が若干低下します。

    柔軟で正確な環境生成に成功し、これが研究者が仮想シーンを探索し、エージェントを訓練するための重要なツールとなっています。

    イースターエッグ

    Genie 2 の生成プロセスにおいて、いくつかの予期せぬシーンもモデルの創造性を示しました:

    • どの動作入力もない状況で、庭に幽霊が出現しました。
    • キャラクターがスキーではなくパルクールを選択しました。