騰訊は先月、論文「AppAgent: Multimodal Agents as Smartphone Users」を発表しました。論文のリンクはこちらです:https://arxiv.org/abs/2312.13771
このエージェントは、複雑なタスクを遂行し、スマートフォンアプリを操作することができます。簡略化されたアクション空間を使用してスマートフォンアプリを操作し、人間のクリックやスワイプのインタラクションを模倣することで、システムバックエンドへのアクセスの必要性を回避し、さまざまなアプリケーションでの適用範囲を拡大しています。
機能のコアはその革新的な学習方法にあります。エージェントは、自主的な探査や人間のデモの観察を通じて、新しいアプリのナビゲートと使用方法を学びます。このプロセスにより生成される知識ベースを使って、エージェントは異なるアプリにおける複雑なタスクを遂行し、様々な高度なタスクを処理するスキルを持っています。
方法
App Agent は探索段階と展開段階の二つのフェーズで動作します。
App Agent は、異なるアプリのユーザーインターフェースとのインタラクションを観察します。十分な観察後、App Agent はアプリを使用する専門家となります。これらの知識は詳細に文書化されます。学習段階が終了すると、エージェントは行動準備が整います。
App Agent は、対応するアプリ内の高度なタスクを処理できます。この方法により、App Agent は効率的に異なるアプリ内の様々な複雑なタスクを完了することができます。
DEMO
App Agent のアプリ上での探査と展開のデモンストレーションです。
デモ動画では、展開段階において AppAgent を使用して X(ツイッター)上でユーザーをフォローするプロセスが示されています。
興味深い実験で、AppAgent が CAPTCHA を通過する能力が示されています。
数字ラベルでマークされていない UI 要素をグリッドオーバーレイを使用して位置付ける例です。