OpenAIが新機能を発表:OperatorとCUA、AIにウェブタスクを代行させる

これは、ブラウザを使用してタスクを自動で実行できるAIエージェントツールで、現在アメリカのProユーザー向けに公開されています。(以前購入したProがやっと元を取りました!)


Operator



01



Operatorとは何ですか?

研究プレビュー版のツールです。GPT-4oの視覚能力と強化学習で最適化された高度な推論能力を組み合わせており、人間がブラウザを操作する行動(クリック、スクロール、テキスト入力など)を模倣できます。

例えば、ローマでの高評価の1日ツアーを予約したい場合、Operatorでは必要とするサービスを説明するだけで、TripAdvisorが推奨する最高のプランを選定し、検索から選択までの一連のプロセスをすべて代行してくれます。この機能の核心は、API統合に頼らずにOperatorがウェブページを「見る」ことができ、直接インタラクションできる点にあります。

OperatorはDoorDash、Uber、Instacartなど複数の有名企業と提携し、タスクの実行効率を最適化しています。さらに、都市サービスへの登録を住民がより簡単に利用できるようにするなど、公共分野での応用も探求しています。

Operatorの主な機能

  1. :フォームの入力や商品の注文、さらには面白いミームパックの作成など、ブラウザ上の繰り返しとなるタスクを処理するために最適です。
  2. :複数のタスクを同時に実行でき、例えばEtsyでマグカップをカスタマイズしながらキャンプ場を予約できます。
  3. :ユーザーは特定のWebサイトに対してパーソナライズされた指示を設定でき、例えばフライト予約時に特定の航空会社を優先選択できます。
  4. :オペレーターは、ログイン情報や支払い情報を入力する必要がある際にユーザーに操作を引き継ぐよう求め、操作が安全かつ直感的であることを確保します。


CUA



02



CUAとは何ですか?

それはCUA技術の最初の実用化されたアプリケーションです。

これは汎用インターフェースモデルであり、GPT-4oの視覚能力と強化学習で訓練された高度な推論能力を組み合わせています。これにより、画面内のボタン、メニュー、テキストボックスなどの要素を観察および操作して、グラフィカルユーザーインターフェースと対話することができます。この機能は特定のAPIを必要とせず、CUAが人間が日常的に使用するデジタルツールやウェブサイトを直接利用可能にします。

CUAの主要な能力には、次のものが含まれます:

  1. :スクリーンショットを通じて現在のインターフェース状態を理解します。
  2. :「チェーン思考」を利用してマルチステップのタスクプランを生成し、操作ステップを動的に調整します。
  3. :仮想マウスやキーボードを使用してクリック、スクロール、入力などの操作を完了します。

これにより、CUAはフォームの入力やウェブページのナビゲーション処理など、多様なデジタル環境で複雑なタスクを実行でき、AIの適用範囲を大幅に拡大します。

技術のハイライト

CUAの背後には、マルチモーダル理解と推論分野における長年の研究成果が結集されています:

  • :CUAは異なるタスクシーンで切り替えが可能であり、ウェブフォームの処理や複雑なクロスプラットフォーム操作などに対応します。
  • :問題に直面した場合、CUAは動的に調整を行い、タスク完了のパスを最適化します。
  • :CUAは複数のベンチマークテストで優れた成績を収めました:
    • では、CUAの完全計算タスク成功率は38.1%に達しました;
    • 中で87%に達しました。

評価とパフォーマンス

CUAは、複数の業界ベンチマーク記録を更新し、その広範な適応能力を示しました:

  • ブラウザタスク
    • (実際のWebページ環境を模擬)において、CUAの成功率は**58.1%**に達しました。
    • (実際のウェブサイトでのテスト、例えばAmazon、GitHubなど)では、成功率が**87%**に上昇しました。
  • オペレーティングシステムタスク
    • 成功率で**72.4%**の人間に近い結果を達成しました。以下👇🏻は競合との比較です。(人間に負けても、競合には負けられません。)

CUAはより多くの操作ステップを通じてパフォーマンスを向上させることができますが、特に複雑なタスクにおいては、依然として人間のパフォーマンスと一定の差があります。


Have a

 Try!



03



試用

ついに私のproアカウントが役に立ちました!!!

私はAIに日本旅行の計画を手伝ってもらうことにしました~



まず大まかな計画を話します




オペレーターがインターネットで検索して準備を始めました




ホテルを予約してくれます




私の意見を尋ねてインタラクティブに応対してくれます




私のために飛行機のチケットを予約して




人為的な確認が必要なときに私を呼び出して「Take Control」してください。

この時にまた私を思い出したのですか。。




私のために飛行機のチケットを探して、必要であれば「Take Control」して支払うだけなので、とても便利です。


全体的な体験はとても良く、万能で強力なアシスタントのWunaがついに私の頻繁な依頼から解放され、会社にとってより意味のあることをできるようになったと感じます。。