『State of AI Report 2024』（3）- ゲームエージェント、コードテスト、企業自動化分野におけるAI研究

今日は3つの研究を翻訳します。それぞれがゲームエージェント、コードテスト、企業の自動化分野に関するものです。

ゲームエージェント

強化学習（RL）エージェントの訓練において、主要なボトルネックは訓練データの不足です。既存の環境（例：アタリ）を変換するか、手動で環境を構築するなどの一般的な方法は、大量の人間の労力を必要とし、拡張が困難です。

モデルは世界モデルであり、制御可能な動作を生成できる仮想世界を生成できます。研究チームは、2Dプラットフォームゲームの3万時間のビデオを分析し、フレーム間の変化を駆動する動作を推論し、視覚情報を学習して圧縮することでこの成果を達成しました。これは以前に共有した内容です：

全新的インタラクションシーンを想像できるだけでなく、極めて柔軟性があります：テキスト記述から手描きのスケッチまで、様々な形式のヒントを受け取り、それらをインタラクティブなゲーム環境に変換することができます。

さらに注目に値するのは、この手法の適用範囲はゲームに限定されないことです。研究チームは、ゲームモデル内のハイパーパラメータをロボットデータに成功裏に適用し、微調整なしでその広い適用可能性を示しました。

コードテスト

複数の大規模言語モデル（LLM）、異なるプロンプトと設定を組み合わせることで、各モデルの強みを活用し、InstagramおよびFacebook内のAndroidコードのユニットテストカバレッジを向上させます。

生成されたテストに対して「保証」手法を採用し、これらのテストが成功裏に構築でき、安定して通過し、かつカバレッジを向上させるもののみを開発者に推奨するようにフィルタリングします。これは、LLMとコード改善の検証可能な保証を組み合わせたソリューションが大規模な産業環境で初めて導入された事例であり、ソフトウェア工学におけるLLMの幻覚現象や信頼性に関する懸念に対処しています。

そのアプリケーションの約10%のテストクラスを改善し、提案されたテストの73%が開発者によって受け入れられ実装されました。

企業の自動化

（スタンフォード大学によって開発），これらは基礎モデルを利用してこれらの欠点を改善します。

ワークフロー理解において99.5%の精度を達成しました。

完了率を0%から40%に向上させました。