OpenAI Day 12 の o1 まだ理解できていないのに、もう o3 が登場しました

今日の早朝、OpenAIは2つのモデルo3とo3 Miniを発表しました。

2はその重要なブランドの一つです。

o3は非常に知能の高いモデルであり、o3 Miniもまた非常に賢いモデルですが、性能は少し低く、コストとパフォーマンスのバランスにおいて非常に優れています。

o3の強力な能力

o3は多くの技術的なベンチマークテストで非常に優れた結果を示すモデルです。

プログラミング

「SWE Bench Verified」のベンチマークテストでは、実際のソフトウェア開発タスクが含まれています。このテストの結果によると、o3の正確性は71.7%に達し、私たちのo1モデルよりも20%以上向上しています。これは、実用性において大きな進歩を意味します。

プログラミングコンテストに関して、「Codeforces」プラットフォーム上でo1は最高でELOスコア1891を記録しましたが、最も強力な計算設定下でのo3のELOは2727に近づいています。比較すると、ビデオ中のMarkの最高スコアは約2500点でした。OpenAIの首席科学者Yakobのスコアも2500を超えませんでした。OpenAI内で3000を超えた人は一人だけのようです。

数学

数学コンテストのベンチマークテストでは、o3の正確性は96.7%に達し、o1は83.3%でした。ビデオ中のMarkはAIME(アメリカ数学オリンピック)で満点を獲得した経験がありますが、今回のo3はほぼ毎回1問だけ間違えました。

GPQA Diamondは非常に難易度が高いベンチマークテストで、博士レベルの科学問題に対するモデルのパフォーマンスを測定します。o3のパフォーマンスも非常に高く、87.7%に達し、o1の78%から約10%向上しました。具体的な感覚として、専門的な博士は通常自分の専門分野で約70%の得点を得ます。

EpochAIは新しい先端的な数学ベンチマークテストです。Epic AIによるこのテストのスコアは他のベンチマークテストと比べて大幅に低いです。これは、このベンチマークテストが現在最も難しい数学テストとされているためです。それは多くの新しい、未公開のデータセットを含んでおり、問題の難易度は非常に困難から極めて困難まで様々です。一部の問題は専門の数学者でも数時間から数日かかることがあります。現在、すべての公開モデルはこのベンチマークテストで2%以下の正確性しか達成していませんが、o3は25%以上の正確性を達成しています。

AGI

ARC-AGIの最初のバージョンが0%の正確性から5%に到達するのに5年かかったのに対し、o3は少ない計算リソースでARC AGIの半プライベート保持セットで75.7%という新たな記録を達成し、ARC AGIの最新のトップスコアとなりました。o3が長時間推論を行い、計算リソースを増やした場合、同じデータセットで87.5%の正確性を達成しました。比較すると、人間のこのタスクでのパフォーマンスは約85%です。

ARC-AGIベンチマークテストの新ブレイクスルー

私は日本でAI技術のエキスパートである呉教授から学んだことを覚えています。彼は研究機関の人々がリソース不足のためにモデルに固執するよりも、AIのベンチマークを作成することの方が良いと言いました。現在のベンチマークはLLMの賢さを十分に表現していないのです。いくつかのベンチマークテストの結果はすでに飽和状態に近づいており、または飽和状態に近づいています。より挑戦的なベンチマークテストが必要で、それによって我々の最先端モデルの能力を正確に評価することができます。

ARC Prizeは非営利組織で、ベンチマークを通じてAGI(人工汎用知能)の発展を促進することを目指しています。最初のベンチマークテストであるARC-AGIは2019年にFrancois Cholletが知能の測定に関する論文で提案されました。しかし、それ以来5年以上にわたって首位を維持しており、AI界ではこれは「何世紀にも等しい」期間です。そのため、ARC-AGIを超えるシステムは汎用知能への重要なマイルストーンとなります。

例を挙げましょう🌰


これは人間のグループが行うことができるタスクですが、現在のAIはまだこれを達成していません。

上記のように、ARC-AGIのユニークな点は各タスクが異なるスキルを必要とするところにあります。つまり、タスクは単に既に覚えたパターンを繰り返すだけでなく、AIが新しい問題を素早く学習し解決する能力を要求します。ARC-AGIの目的はモデルが新しいスキルを学ぶ能力をテストすることであり、既存の解決策を単に記憶するだけではありません。

o3 Mini

o3 Miniは低、中、高の3つの異なる推論努力設定をサポートします。ユーザーは使用シーンに応じて自由に推論時間を調整できます。例えば、複雑な問題には長い推論時間が必要となるかもしれませんが、簡単な問題に対しては短い推論時間を選択することができます。

プログラミング

Codeforces ELOはプログラマの能力を測る指標で、スコアが高いほどパフォーマンスが良いことを示します。グラフから、推論時間が増加するにつれてo3 Miniのパフォーマンスが徐々に向上し、中程度の推論時間でもo1 Miniを超えることがわかります。これはo3 Miniが提供する速度とコストで、o1 Miniよりもプログラミングタスクでより良いパフォーマンスを達成できることを意味します。

o3 Miniは超高推論努力下でも最良の結果には及ばないものの、コストパフォーマンスが高いです。以下はo3 Miniのプログラミングタスクにおける推定コストとCodeforces ELOスコアとのトレードオフの関係を示しています。

数学

o3 MiniはAIME 2024データセットでの低推論モードではo1 Miniと同等のパフォーマンスを示し、中推論モードではo1 Miniを上回ります。高推論モードではさらにパフォーマンスが向上します。

o3 Miniの低推論モードはo1 Miniの遅延を大幅に削減し、GPT-4のレスポンスタイムに匹敵する、1秒未満のほぼ即時レスポンスを達成します。また、o3 Miniの中推論モードの遅延はo1 Miniの半分です。

オープンセキュリティテスト

外部のセキュリティ研究者向けにセキュリティテストを開放します。申請フォーム:https://openai.com/index/early-access-for-safety-testing/