)。今日はスタンフォード人工知能研究所(HAI)のレポートにおけるエージェント部分をさらに議論します。CopilotとAgentに関するこのビデオはかなり興味深く、プログラミングの先生の動画アカウントで見つけました:スタンフォードのレポートに戻ると、この章では主に2つのベンチマークと1つの研究が紹介されています。
AgentBench
AgentBenchは新しいベンチマークテストで、LLMベースのエージェントを評価するために設計されており、ウェブブラウジング、オンラインショッピング、ホームマネジメント、パズル解決、デジタルカードゲームなど8種類の異なるインタラクションシーンをカバーしています。
以上が主要な言語モデルの比較であり、GPT-4は依然としてリーダーシップを維持しています。
MLAgentBench
MLAgentBenchは、AIリサーチエージェントのパフォーマンスを評価する新しいベンチマークテストで、AIエージェントが科学実験を行えるかどうかを試します。より具体的には、MLAgentBenchは15種類の異なる研究タスクを通じて、それらがコンピュータ科学研究アシスタントとしてどれだけ機能するかを評価します。
これらのタスクにおいて、GPT-4は一貫して最良の結果を示しています。上の図をご参照ください。
)が強調されていますが、以前にこの研究について共有しているため、本日のノートでは詳しく説明しません。