大幅リードを誇るGemini 2.5 Proが発表:他のLLMをすべて上回り、世界一の座に輝く

今日未明にGoogleが最新発表したGemini 2.5 Proは、すでに全世界で議論の余地なく最強のAIモデルとなりました。その性能は先月リリースされたGrok 3を大幅に上回り、LMarenaスコアで40ポイントもリードしています。ノアム・シャーザーの深く関与したことは、Gemini 2.5 ProがFlash Thinkingのコア技術を統合している可能性を示唆しています。そして、2.5 Flashよりも先に2.5 Proがリリースされたのは非常に興味深い展開です。

サイモン・ウィルソン、ポール・ゴティエ(エイダー)、アンドリュー・キャーなど、多くの業界専門家たちが迅速にGemini 2.5 Proへの意見を共有し、評価は一貫しています。「このモデルは疑いなくSOTA(最先端技術)の基準に達しています」とのことです。

モデルの特徴

1. Gemini 2.5 Proがトップに:性能の向上で競合を完全に上回る

最新公開のジェミニ 2.5 プロ 実験版(コードネーム:ネビュラ)記録的な高得点をマークし、迅速にLM Arenaランキングのトップに登りつめ、以前上位にランクされていたGrok-3およびGPT-4.5を完全に上回りました。このモデルは数学計算、創造的執筆、命令遵守、長文クエリ処理、マルチラウンド対話など多くの分野で優位性を示しており、顕著な性能向上が見られます。

2. グーグルのスピードは驚異的で、ネットユーザーからは「信じられない」との声が相次いだ

多くのユーザーは、グーグルがジェミニ 2.5を投入するまでの速さに驚いており、一部のユーザーはグーグルの創設者であるセルゲイ・ブリン(Sergey Brin)が『The Verge』のレポートで述べた要求「グーグルはもうお世辞ばかりの製品を作るのをやめるべきだ」を引用しました。別のユーザーはさらに率直に「これほどの進歩は信じられない!」とコメントしました。コミュニティ全体としては、AI分野におけるグーグルの開発速度に感嘆しています。

Gemini 2.5 Proのコーディング能力が優れており、Aiderマルチリンガルベンチマークで新記録を達成しました。

Gemini 2.5 Pro Experimentalは、Aiderマルチリンガル(ポリグロット)ベンチマークにおいて全体74%、diffスコア68.6%という優れた結果を出し、新しい最先端技術(SOTA)の基準を確立しました。これにより、以前のGeminiモデルを大幅に上回りました。ユーザーからのフィードバックによると、このモデルは特にコードベースからアーキテクチャ図を生成する点で非常に得意であり、プログラミングタスクにおけるトップクラスのパフォーマンスをさらに強化しています。ただし、一部のユーザーは、具体的なコーディングパフォーマンスに一定の不安定性があり、現在のレート制限が厳しすぎる点を指摘しています。

現時点ではGemini 2.5 Proの価格プランは発表されていませんが、ユーザーはすでに「実験版」を無料で体験できますが、利用には制限があります。

公式説明

「思考型AI」とは何ですか?

ジェミニ2.5シリーズのモデルは「思考型モデル」(thinking models)に分類され、推理と分析を行った後に応答するため、モデルの全体的なパフォーマンスと精度が大幅に向上しています。

人工知能分野において、「推論」(reasoning)とは単なる分類や予測を超えて、AIが情報を分析し、論理的な結論を導き出し、文脈や微妙な違いを取り込み、合理的な意思決定を行う能力を示します。

長年にわたり、Googleは強化学習(Reinforcement Learning)やチェーンオブソートプロンプティング(Chain-of-Thought Prompting)などの技術を通じて、AIの知能レベルと推論能力の向上に取り組んできました。その成果に基づき、最初の思考型モデルであるジェミニ2.0フラッシュシンキングをリリースしました。

現在、ジェミニ2.5はより強力な基盤モデルと高度な後学習技術を組み合わせることで、AIの推論能力を新たな高みに引き上げています。今後、Googleはすべてのジェミニモデルにこの「思考能力」を直接組み込み、より複雑な問題を解決し、文脈認識機能を持つ強力なAIエージェントをサポートできるようにします。

深化した推論能力

Gemini 2.5 Proは、高度な推論タスクにおける複数のベンチマークテストで他を大きく引き離しています。コストを増加させる「多数決」などのテスト手法を使わずに、Gemini 2.5 ProはすでにGPQA数学ベンチマークとAIME 2025科学ベンチマークで業界をリードしています。

さらに、数百人の専門家によって設計され、人類の知識と推論能力の限界を試すことを目的とした「Humanity’s Last Exam」データセットにおいて、Gemini 2.5 Pro(外部ツールを使用せず)は18.8%というスコアで業界新記録を達成し、無ツールモデルの中でもトップクラスの性能を示しました。

プログラミング能力が新たな高みに到達

私たちはAIのプログラミング能力向上に継続的に注力しており、Gemini 2.5では2.0版から大幅な進化を遂げました。さらなる最適化も計画中です。Gemini 2.5 Proは特に視覚的に魅力的なウェブアプリやスマートなコードプログラムの作成に優れており、コード変換や編集にも卓越した能力を持っています。業界で広く認められているSWE-Bench Verified(スマートコード評価基準)において、Gemini 2.5 Proはカスタムエージェントソリューションで63.8%という高いスコアを獲得しました。

例えば、短い指示文一つで、Gemini 2.5 Proは強力な推論能力を活用して実行可能なコードを自動生成し、完全なビデオゲームアプリケーションを迅速に作成することができます。

マルチモーダルと長いコンテキストウィンドウ

ジェミニ2.5は、ジェミニモデルが持つ固有のマルチモーダル機能と長いコンテキストウィンドウを継承し、強化しました。ジェミニ2.5 Proはリリース当初から100万トークンのコンテキストウィンドウを搭載しており(将来的には200万に拡張されます)、前世代よりも大幅な性能向上を実現しています。膨大なデータセットを理解し、テキスト、音声、画像、動画、さらには完全なコードリポジトリなど、異なる情報源からの複雑な問題を処理することができます。

無料体験開放、さらに多くの機能が間もなく登場

Googleのエンジニアであるカスパー・ハンセン氏によると、ジェミニ2.5 Proはすべてのユーザーに対して無料で利用可能になりました:

  • 開発者はすぐにGoogle AI Studioを通じて体験できます;
  • ジェミニ・アドバンスドユーザーもジェミニアプリ内で選択可能です。
  • 間もなく、グーグルクラウドのVertex AIプラットフォームでも利用可能になります。

Googleは今後数週間以内に価格詳細を発表し、ユーザーがより高いレート制限のもとでジェミニ2.5プロを大規模な実際の生産環境に適用できるようにします。

さらに、Googleの研究員であるスティーブン・ハイデル氏は、ジェミニ2.5プロに追加された新しい画像生成機能についても紹介しました。ユーザーは画像のアスペクト比を自由に設定でき、複数の異なる画像バリエーションを一度に生成することも可能で、これにより生成される画像の柔軟性と創造性が大幅に向上しています。

試用