マイクロソフトのマグマ:マルチモーダルAIエージェント向けの最初の基礎モデル

人工知能が単一モーダルからマルチモーダル融合へと発展する傾向が徐々に明らかになる中、Magmaは初めてマルチモーダルエージェントタスクのために特別に設計された基礎モデルとして誕生しました。それは多様なモーダル間の相互作用を深く理解し、目標指向の行動を正確に実行することができます。膨大な量の視覚的および言語データから効率的に知識を移転することで、Magmaは言語、空間、時間の知能を統合し、デジタルと物理環境における複雑なタスクに対応できる柔軟性を持っています。

Magmaの事前学習フロー

Magmaの事前学習プロセスは明確かつ効率的です:すべての訓練データ内のテキスト情報は離散的なトークンに統一的にエンコードされ、異なる領域からの画像やビデオデータは共有の視覚エンコーダーを通じて処理されます。エンコードされた離散的および連続的なトークンが統合され、その後大規模言語モデル(LLM)に入力され、モデルは言語、空間、行動の3種類の結果を出力します。

この革新的な事前学習方法により、Magmaは視覚、言語、動作間のシームレスな接続を実現し、より汎用的で高度なAIエージェントの道を開きました。

技術的詳細の全面的な解説

🖼️ 集合マーカー(Set-of-Mark, SoM)と動作位置特定

集合マーカー(SoM)のプロンプト手法により、モデルは画像空間内で効率的に動作位置特定を行うことができます。これはユーザーインターフェース(UI)スクリーンショット(たとえばクリック可能なボタンの認識)、ロボット操作(ロボットアームの位置認識)、および人間の動きのビデオ(人体の主要なポイントの認識)など、さまざまなシーンに適用可能です。モデルは画像空間内の数値マーカーを予測することで、統一的な動作位置特定を達成します。

🎬 軌跡マーカー(Trace-of-Mark, ToM)と動作計画

軌跡マーカー(ToM)は、ロボット操作と人間の動きのビデオ監視に使用され、モデルがビデオの動的な変化を理解し、未来の状態を予測した上で動作を実行することを促進します。この方法はフレームごとの予測(次フレーム予測)と比較して、より少ないマーカーを使用しながらも長い時間枠と関連する動的な情報を捉え、環境ノイズを効果的に排除します。

📚 事前学習データのソース

Magmaの事前学習データは豊富で多様であり、教育ビデオ、ロボット操作、UIナビゲーション、およびマルチモーダル理解タスクをカバーしています。その中でSoMは様々なデータに広く適用され、クロスモーダルでの統一的な動作位置特定を実現します。一方、ToMは主にビデオとロボティクス分野のデータに焦点を当てています。

🎮 Magma ゲームインテリジェンス

Magmaは優れたマルチモーダルゲーム能力を持ち、例えば2Dゲームにおいて自動的に上下左右に移動して緑色のブロックを集めるといったタスクを遂行し、その優れたリアルタイムの感知と行動計画能力を示しています。

⚔️ Magma エージェント vs. 他の主要モデル

エージェントタスクのゼロショット評価において、Magmaは特定のドメインに対する微調整なしで全てのタスクをこなすことができ、LLaVA-OneVision、Qwen2-VL、GPT-4o miniなどの主要モデルを上回るパフォーマンスを示し、包括的なエージェントの汎用性を表現しています。

📱 ユーザーインターフェースナビゲーション

Magmaは複雑なUIナビゲーションタスクを正確に完了でき、シアトルの天気を確認したり、飛行機モードをオンにしたり、指定された連絡先にメッセージを送信したりすることができます。Mind2WebとAITWデータセット上で効率的な微調整を行うことで、MagmaはウェブとモバイルUIナビゲーションにおいて目覚ましい成果を収めています。

🦾 ロボット操作

WidowXの実際のロボットビデオテストでは、Magmaの少数サンプル微調整によるパフォーマンスはOpenVLAを大きく上回り、ソフト物体の操作や把持・配置タスクに対する優れた一般化能力を示しています。これはドメイン内およびドメイン外のタスクシーンに関わらずです。

LIBEROデータセット上の実験でも、Magmaの成功率が顕著に高く、SoMとToMのマーカーを削除するとモデルの性能が大幅に低下することが確認されました。

GoogleロボットとBridgeシミュレーション環境のゼロショットテスト(SimplerEnv)では、Magmaは強力な跨領域および跨形態ロボットの一般化能力を示し、印象的な一般化パフォーマンスを達成しました。

🧠 空間推論

空間推論タスクはGPT-4oのような高レベルモデルにとって難題ですが、Magmaは小規模な事前学習データであっても優れたパフォーマンスを発揮し、突出した空間知能を示しています。

📹 マルチモーダル理解

ビデオ質問応答(QA)のゼロショット評価基準において、MagmaはVideo-Llama2、ShareGPT4Videoなどの最先端モデルと同等またはそれ以上のパフォーマンスを示し、さらに少ないビデオ命令微調整データを使用していることから、Magmaの効率性と強力な一般化能力が証明されています。

事例展示

以下は、Magmaモデルが実際のマルチモーダルビデオ対話シーンでどのように活用されるかの典型的なアプリケーション例であり、モデルの強力なマルチモーダル理解、予測、そしてインタラクション能力を示しています。

♟️ ゲームアドバイスシーン

  • ユーザー: この試合に勝ちたいと思っています。次の一手で勝率を最大限に高めるためのアドバイスをいただけますか?
  • Magma: あなたのポーンをd4の位置に移動することをお勧めします。これにより、試合に勝つチャンスを最大限に高めることができます。

🛋️ リラクゼーションアドバイスシーン

  • ユーザー: ここで数時間リラックスしたいと思っています。何か私ができることをお勧めしてもらえますか?
  • Magma: テレビを見たり、本を読んだり、窓の外の秋の森の美しい景色を楽しむことができます。

🛒 店舗シーンの詳細説明

  • ユーザー: ビデオの内容を詳しく説明してください。特に主要な人物と彼らの行動に注目し、次に起こりそうなことを予測してください。
  • Magma: ビデオのシーンはコンビニエンスストアのレジで行われています。「5アイテム8ドル」のプロモーションサインが目立つ場所で、カウンターには様々なスナックと支払い端末が置かれています。黒地に白い袖の制服を着た従業員が支払い端末を操作しており、顧客が赤いショッピングバスケットをカウンターに置いています。従業員は端末の操作を続けながら、バスケットの中のアイテムを整理しています。次に、この従業員はおそらく顧客の支払いを完了し、アイテムを手渡すでしょう。

🌱 家庭植物配置シーン

  • ユーザー: ビデオ中の主要なアクションについて詳しく説明してください。
  • Magma: ビデオは手のクローズアップから始まり、木製の本棚に置かれた赤い鉢植えの植物に向かっています。この植物の葉は緑色と黄色の縞模様があり、横には「YOUNG」というタイトルの本と重ねられた木製のボウルがあります。手が植物の位置を慎重に調整し、適切に配置します。背景にはベージュ色の水やりポットと暖房パイプが見えます。その後、手が再び植物の位置を微調整し、ゆっくりと引き下がります。カメラが徐々に引いていくと、赤いハイチェアと木製のテーブルが見えてきます。テーブルの上にはスマートフォンと赤いカップが置かれています。最後に、視野が広がり、部屋のチェック柄の床と他の植物が映し出されます。

🧽 台所清掃シーン

  • ユーザー: ビデオ中の主要なアクションについて詳しく説明してください。
  • Magma: ビデオは台所のシンクエリアのクローズアップから始まり、手が黒いカップを持って流水の下で洗っています。近くには食器用洗剤と青い歯ブラシが置かれています。その後、その人は青いスポンジを使ってカップの内部を丁寧に磨き、清掃を終えた後、カップとスポンジをシンクの近くに戻します。

🥤 飲み物選択の識別

  • ユーザー: ビデオの中でこの人はどの飲み物を選んだのですか?
  • Magma: この人は「SAVE SOY」というラベルの豆乳飲料を選んでいます。

🍵 その後のアクション予測

  • ユーザー: ビデオの後に、この人が次に何をするか予測できますか?
  • Magma: この人はおそらくカップに熱湯を入れ、お茶の準備を続けるでしょう。

☕ コーヒーメーカーとのインタラクションシーン

  • ユーザー: ビデオの中でこの人が何をしているのか説明できますか?
  • Magma: この人はコーヒーメーカーと対話し、異なるボタンを押しています。おそらく作りたいコーヒーの種類を選んでいるのでしょう。

試用

https://huggingface.co/spaces/microsoft/Magma-Gaming

https://huggingface.co/spaces/microsoft/Magma-UI