ボイジャー:Minecraftにおける具身体験エージェント

今日は一篇の論文を読みました、NVIDIAのVoyagerについてです。これはNVIDIAのMineDojoチームによって開発され、大規模言語モデル(LLM)によって駆動され、Minecraftの世界で具現化されたエージェント(embodied agent)を実現しています。このチームのリーダーはJim (Linxi) Fanで、AI分野では有名な人物であり、OpenAIの最初のインターンと言われています。以前、アメリカで開催された真格イベントで彼の講演を聞いたことがあります。その時、彼はNVIDIAでGame AIを担当していることを述べていました。

MineDojoのGitHubでStar数が最も多かった3つのプロジェクトは次の通りです:

  • Foundation Model,MineCLIP
  • メインプロジェクト
  • つまり「大規模言語モデルを使用したオープンエンドの具現化エージェント」です

Voyagerは人類の介入を必要とせず、世界を継続的に探検し、多様なスキルを習得し、新しい発見を行います。論文アドレス:https://voyager.minedojo.org/


プロジェクトの背景

Minecraftにおける最初のLLM駆動型Open-Ended Embodied Agentとして、Voyagerは探検を続け、スキルを掌握し、新しい発見を行います。

【三個の重要な構成要素】

、探査の進捗状況とエージェントの状態を考慮し、探査範囲を最大化するため。

、複雑な行動を保存および検索するために使用されます。新しいタスクが現れたとき、ライブラリの先頭に新しいスキルが追加され、末尾ではクエリが実行されて関連する上位5つのスキルを識別します。

、プログラムを改善するため。

例えば、GPT-4はアカシアの斧ではなく木の斧を作るべきだと認識します。

それは

Voyagerはblackboxクエリを通じてGPT-4とやり取りし、モデルパラメータの微調整の必要性を回避しています。Voyagerが発展させたスキルは時間的に継続し、強力な説明可能性を持ち、組み合わせ可能であり、これはその能力の蓄積を加速し、災害的な忘却の問題を軽減します。

対比

これまでのベスト技術と比較して、効果を見てみましょう:

  • 倍に向上しました。