)。その後、清華大学の呉教授と交流し、彼らが強化学習(Reinforcement Learning、RL)で改善したエージェントが狼人ゲームでより優れたパフォーマンスを発揮していることを知った。
「強化学習による言語エージェントの狼人ゲームにおける戦略的プレイ」(LANGUAGE AGENTS WITH REINFORCEMENT LEARNING FOR STRATEGIC PLAY IN THE WEREWOLF GAME) https://arxiv.org/pdf/2310.18940.pdf
以前、この論文を保存していたが、ずっと細かく読む時間がなかった。今日になって、ようやく詳細に学ぶ機会を得た✍️。
概要
本論文では、強化学習(RL)を利用して狼人ゲームのエージェントを開発する方法について議論している。呉先生のエージェントはまず、LLMsを使用して潜在的な欺瞞を推論し、一連の戦略的に多様な行動案を生成する。次に、グループベースのトレーニングを通じてRL戦略を学び、候補となる行動から一つを選択することで、エージェントの意思決定能力を向上させる。LLMsとRL戦略を組み合わせることで、呉先生のエージェントは多様な戦略を生み出し、他のLLMベースのエージェントとの対戦で最高の勝率を達成し、敵対的な人間プレイヤーとの狼人ゲームでも安定したパフォーマンスを発揮した。
フレームワーク
この論文では、彼らの行動が利用されやすいという点にはあまり考慮されておらず、明確な戦略パターンに基づいた行動を取る傾向があり、これにより大会中の人間プレイヤーに見破られやすくなる。
呉先生は、大規模言語モデル(LLMs)と強化学習(RL)を組み合わせたフレームワークを提案し、戦略的な言語エージェントを構築した。
このエージェントは、LLMを使用して重要な情報を整理し、隠された役割を推論し、多様な行動案のセットを生成する。その後、グループベースのトレーニングを通じてRL戦略を学び、候補行動から最終行動を出力し、強力な戦略的プレイを実現する。
強化学習(RL)を組み込んだLLMベースの戦略的思考能力を持つエージェントは、戦略的言語エージェントと呼ばれる。
推論判断:LLMを使用して重要情報を分類し、推論判断を適用する。
多様化行動生成:LLMに提示し、戦略的に多様な行動案のセットを提供させる。
グループベースのRLトレーニング:自身、過去のバージョン、およびエージェントプールと対戦しながらRL戦略を学ぶ。
実験結果:
:異なるエージェント間の勝率比較を示す。
:太字の数字は、呉先生のエージェントがすべての弱体化版エージェントよりも堅牢であることを示している。下線の数字は、単独評価において呉先生のエージェントが平均的な人間よりも高い勝率を達成していることを示している。
:太字の数字は、呉先生のRL戦略が未見のLLMに基づくエージェントのパフォーマンスを向上させていることを示している。
:RLトレーニングの利点を直感的に示すために、RL戦略を持つエージェントと持たないエージェントの行動分布を比較し、3つの状況における行動を分析して違いを示す。
他のプロンプト技術との比較:
自己対戦との比較: