先日、AnthropicのCEOが書いた記事を読みましたが、かなりインスピレーションを受けました(AnthropicのCEOであるダリオの最新のAIに関する記事)。本日発表されたAnthropicの最新製品Claude 3.5 Sonnetは、すでにコンピュータを直接操作する能力を持っています。特定のソフトウェア設定で実行すると、Claudeはユーザーの指示に従って画面のカーソルを移動させ、必要な場所をクリックし、仮想キーボードを使って情報を入力して、人々がコンピュータとやり取りする方法を模倣することができます。
公式の事例
民間事例
X.com 上 @krishnanrohit の例:
コンピュータの使用方法について、そのデモを作成するようにしました。
すると、AI は自らゲームをプレイすることを選択しました:
面白さのために、AI は文字列の置換を行い、人類にそれが可能であることを示しました。とても興味深いです。
研究プロセス
基礎としています。コンピュータを操作するには、画像認識および解釈の能力が必要です——この場合、具体的にはコンピュータ画面上の内容を識別することです。同時に、AIは画面上に表示された情報に基づいて、いつ、どのように特定の操作を行うべきか推論する必要があります。これらの能力を組み合わせることで、チームはClaudeを画面の内容を理解し、利用可能なソフトウェアツールを使用してタスクを完了できるように訓練しました。
これは非常に重要です。このような能力がない場合、モデルはマウス操作コマンドを発行する際に困難に直面します。これにより、AIが簡単そうな問題に対しても誤りを犯す状況と似ています。例えば、「単語『バナナ』には何個の文字Aが含まれているか?」という質問に対する誤答などです
チームは、クロードがシンプルなソフトウェア(電卓やテキストエディタなど)を使用する訓練から急速に汎化する能力に驚きました。安全性を考慮し、モデルの訓練中はインターネットへのアクセスが許可されていませんでした。クロードの他のスキルと組み合わせることで、この訓練はユーザーの文章指示を論理的なステップに変換し、それらをコンピュータ上で実行する強力な能力を与えました。研究者たちはさらに、クロードが障害に直面した際には自己修正を行い、タスクを再試行できる能力も観察しました
それは反復的な調整を通じて実現されました。一部の研究者たちは、このコンピュータ使用能力を開発するプロセスが、彼らがAI分野に最初に入った時に想像していた「理想化された」研究プロセスに近いと指摘しています:進展が見られるまで、継続的に反復し、何度もやり直すことです。
Claudeは現在14.9%のスコアを達成しています。これは人間レベル(通常70〜75%)にはまだ大きな差がありますが、同種のモデルの7.7%を大きく上回っています。
AIがコンピュータを使う未来について
——Claudeは私たちが毎日使用するコンピュータ環境に統合される能力を持っています。目的は、Claudeに既存のコンピュータソフトウェアを人間のように使用させることです。
現在、Claudeのコンピュータ使用機能はすでに先進的ですが、まだ多くの課題があります。Claudeの操作速度は依然として遅く、頻繁に誤動作します。多くの人が日常的に行うコンピュータ操作(ドラッグやズームなど)は、Claudeがまだ処理できないものです。さらに、Claudeがスクリーンを「ページごと」に観察する方式(スクリーンショットを切り取って結合する方法で、より洗練されたビデオストリームではなく)は、短時間の操作や通知を見逃す可能性があります。
👆🏻のデモ動画を録画している際に、Anthropicチームはいくつか興味深いエラーにも遭遇しました。例えば、Claudeが一度の操作で画面録画を停止するボタンを誤って押してしまい、すべての録画が失われました。別のコーディングデモでは、Claudeが突如タスクを中断し、イエローストーン国立公園の写真を閲覧し始めました。(AIがサボっているわけではないでしょうね?🐟)
試用プロセス
https://docs.anthropic.com/en/docs/build-with-claude/computer-use
これは、X 上で@mckaywrigleyが共有した使用プロセスです: