今日は、マイクロソフト研究所が今年2月に発表した論文「Position Paper: Agent AI Towards a Holistic Intelligence」を読みました。この論文は私の妻🌱が以前に私に送ってくれたものです。論文では、Agent AIシステムに関する理論が提示されています。このシステムは複数の分野にまたがって応用可能であり、相互作用と具体的操作のために基礎モデルを提供します。Agent AIは、多様な環境間での相互作用を通じて得られる多モーダルデータを活用し、物理的および仮想的な世界で動作することができます。Agent AIは、統一されたインフラストラクチャ内で幅広いアプリケーションや能力を実現する有望な方法を示しています。さらに、それは全体的知能(Holistic Intelligence, HI)への道として徐々に注目されています。
まるで包括的なモデルを作ろうとしているようで、scaling lawに基づいて進展させています。
エージェントAIパラダイム
論文では、具象化された多モーダルな通才エージェントシステムをサポートするためのエージェントAIパラダイムについて述べられています。このパラダイムには5つの主要なモジュールが含まれます。
環境におけるエージェントとその感覚、タスク計画と観察 エージェント学習 記憶 行動 認知と意識
これらのコンポーネントの緊密な統合は、全体的知能の発展に役立ちます。従来のインタラクション戦略と比較すると、このアプローチの重要な違いは、訓練後、エージェントの行動が直接タスク計画に影響を与え、環境からのフィードバックを受け取ることなく次の行動を計画できる点です。
エージェントAI意識
エージェントAIは、単純なコンポーネントの協調効果を超えて、「意識」に関わる可能性があります。最近、神経科学の洞察に基づいて人工知能の意識を探る挑戦的な試みにおいて、神経科学者たちは代理性(Agency)と具象性(Embodiment)を意識の指標として議論しました。
私たちのエージェントAIは、言語(つまりテキスト指令)、感覚入力、行動履歴に基づいて最適な行動を予測し、目標指向の行動を生成することで代理性を実現します。また、行動と環境結果の関係から学習し、具象性の原則を達成します。したがって、エージェントAIの意識の側面を潜在的に量化できることを示しており、これにより神経科学、生物学、物理学、生物物理学、認知科学、医療健康、倫理哲学などの多くの学問分野での可能性が示唆されます。
エージェントAIモデル
エージェントAIトランスフォーマー
異なる抽象レベルの多モーダル情報を処理するために設計されたインタラクティブエージェント基盤モデルフレームワークを概説します。このトランスフォーマーは、文脈の包括的理解を助け、行動の一貫性を向上させるために使用されます。さまざまなタスク領域やアプリケーションでの学習を通じて、モデルの適応性と効率性が強化されます。
エージェントAI学習戦略
強化学習(Reinforcement Learning, RL) 模倣学習(Imitation Learning, IL) 伝統的なRGB(Red, Green, Blue)
エージェントAI応用タスク
ロボティクス
ロボットは、環境と効果的に対話する代表的なエージェントです。本節では、効率的なロボット操作に不可欠な主要要素を紹介し、最新の大型基盤モデルを適用した研究テーマを振り返り、最近の研究の知見を共有します。
ゲーム
ゲームは、大規模な基盤モデルのエージェント行動をテストするためのユニークなサンドボックスを提供し、それらの協働能力和決定能力の限界に挑戦します。特に、エージェントが人間プレイヤーや他のエージェントとのインタラクション能力、そして環境の中で意味のある行動を取る能力を強調する3つの領域について説明します。
インタラクティブヘルスケア
医療分野では、エージェントAIは大規模な基盤モデルを使用して、患者や医師がユーザー意図を理解し、臨床知識を検索し、進行中の人間関係のインタラクションを把握することを支援できますが、これらに限定されません。
インタラクティブマルチモーダルタスク
視覚と言語理解の統合はエージェントAIの基礎です。したがって、エージェントAIの発展は、画像キャプション生成、視覚質問応答、ビデオ言語生成、ビデオ理解などのマルチモーダルタスクのパフォーマンスと密接に関連しています。