最近、AIの世界は正月を迎えたかのようだ。OpenAIは連続で12の大きなアップデートを発表し、その新動向をまだ消化している最中に、Googleが新しいAIモデルGemini 2.0の発表を行った。今朝、ポーラから送られてきた。誰もが知るように、Googleは毎年年末になるとクリスマス休暇モードに入り、多くの重要な更新は翌年に延期されるのが普通だ。しかし、今年の12月、Googleは例年にない動きを見せ、Gemini 2.0をこのタイミングでリリースした。
CEO 公開手紙 ✉️
GoogleおよびAlphabetのCEOであるサンダー・ピチャイ氏の公開手紙では、彼がGoogleが長年にわたり情報整理とAI発展に取り組んできたビジョンを共有し、次世代AIモデルのGemini 2.0のリリースを発表しました。
エージェント時代への突入
「(まるでシリコンバレー全体がAIエージェント、特にその中のAIコードエンジニアに重点を置いているようだ)、つまり、AIモデルが周囲の世界を理解するだけでなく、複数のステップ先を見越して行動し、ユーザーの監督のもとで行動を取ることができるということです。このビジョンに基づき、GoogleはGemini 2.0という次世代モデルを発表しました。その特徴には以下が含まれます:
:ネイティブな画像と音声の出力をサポートし、インタラクションをより自然なものにします。 :AIのツール使用能力を強化し、新しいスマートエージェントの開発基盤を構築します。
本日より、Gemini 2.0が開発者および信頼されたユーザー向けに公開され、Gemini Advancedを通じて新しい機能「Deep Research」が導入されます。この機能はAIの高度な推論能力和長文コンテキスト処理能力を活用し、ユーザーが複雑なテーマを研究し、詳細なレポートを作成するのを支援します。
AI駆動型検索
Google 検索は、AIによる変革が最も顕著に現れた分野の一つとなっています。現在、AIに基づく「検索概要(AI Overviews)」は10億人のユーザーに利用されており、非常に人気のある機能となっています。Gemini 2.0の高度な推論能力を活かして、検索の未来には以下のような要素が含まれます:
問題。 問題です。 より多くの国に拡大し
Trillium TPU
Gemini 2.0 の背後には、Google がAI技術分野で10年にわたって蓄積してきたフルスタックの革新があります:
(Trillium)でトレーニングと推論を行います。 本日から外部顧客にも開放され、より多くの開発者がAIアプリケーションを構築をサポートします。
もしGemini 1.0の重点が情報の整理と理解にあるなら、Gemini 2.0の目標は情報をより実用的にすることです。
If Gemini 1.0 was about organizing and understanding information, Gemini 2.0 is about making it much more useful.
- Sundar
Gemini 2.0 Flash:スピードとパフォーマンスの最高峰
Gemini 2.0 Flashは1.5 Flashをベースにしたアップデート版です。開発者に愛されるモデルである1.5 Flashは、その迅速な応答と優れた性能で高い評価を得ています。2.0 Flashはさらにパフォーマンスを向上させ、以下の点で突破を遂げました:
(更快更强):重要なベンチマークテストにおいて、2.0 Flashは1.5 Proを超える結果を示し、応答速度はなんと2倍速くなりました。
使用能力(ツールの使用):Google Search の呼び出し、コード実行、およびユーザーがカスタマイズ可能なサードパーティの関数をサポートします。
機能を備え、開発者やユーザーに全新的なインタラクション体験をもたらします。
Gemini 2.0を試してみてください
Twitterで他の人の試用結果を見てみたのですが、なかなか良さそうですね:
私もGemini Advanceのユーザーですが、私の場合はうまくいっておらず、開き方が間違っているのか分かりません:
マルチモーダルLive API:動的なインタラクションアプリケーションの新しいツール
その特徴には、以下が含まれます:
リアルタイムのオーディオおよびビデオストリーム入力。 より複雑なアプリケーションの開発をサポートします。
x.comで他の人のデモを見つけたのでシェアします:
Deep Research
この機能は、AIの高度な推論能力和長文コンテキスト処理能力を活用し、ユーザーが複雑なテーマを研究し、詳細なレポートを作成するのを支援します。以下の優れた能力を持っています:
複雑なタスクを完了することができる。 :ステップごとの研究計画を作成し、ユーザーの承認を得る。 :Google Search を使用して人間らしい方法で情報を閲覧する。 :包括した研究報告書を生成し、信頼できる情報源のリンクを添付します。 で利用できます。
のリリースは、情報検索と知識生成に新たな方法を提供し、特に詳細な分析と信頼できる情報を必要とする場面に適しています。
Deep Research を試す
エージェントの使用例:
Project Astra: マルチモーダル理解による実世界のAIアシスタント
強化された対話能力:Project Astra は多言語および混在言語での会話が可能で、ユーザーのニーズをより正確に理解することができます。異なる言語のアクセントや希少な単語の理解能力が向上し、会話をさらに自然でスムーズにします。 全新的ツール呼び出し機能:Google Search、Google Lens、Google Maps 強化された記憶機能:単一セッション中、記憶時間は10分に延長され、より複雑なコンテキスト対話が可能になりました。ユーザーの過去の会話を覚えており、パーソナライズされたインタラクションの基盤を提供しながら、ユーザーが記憶内容をコントロールできるようにしています。 遅延改善:新しいストリーミング技術とネイティブの音声理解能力を活用し、Project Astra の言語処理遅延は人間の会話レベルに近づいており、ユーザーにリアルタイムでスムーズなインタラクション体験を提供します。
Project Mariner: 複雑なタスクをサポートする AI エージェント
Project Mariner は、Gemini 2.0 をベースに構築された初期の研究プロトタイプであり、人間と AI エージェントの未来のインタラクション方法を探るものです。ブラウザから始まり、このプロジェクトはマルチモーダルな理解と推論を通じて、複雑なウェブタスクを遂行する方法を示しています。研究プロトタイプとして、Project Mariner はブラウザ画面上の情報を理解でき、ピクセルやウェブページ要素(テキスト、コード、画像、フォームなど)を認識します。そして、実験的な Chrome 拡張を使用してこれらの情報を活用し、ユーザーがタスクを完了するのを支援します。
優れたタスクパフォーマンス:WebVoyager ベンチマークテスト(エンドツーエンドの実際のネットワークタスクにおけるエージェントのパフォーマンスを評価)において、Project Mariner は業界をリードする 83.5% の結果を達成し、特に単一エージェント設定でのパフォーマンスが目立ちます。 ブラウザ内のタスクナビゲーション:Project Mariner は、技術的にブラウザ内でタスクを完了することの可能性を示しました。現在、タスクの完了速度は遅く、正確性も安定していませんが、これらの点は今後急速に改善される見込みです。
ジュール:開発者のための AI コードアシスタント
ジュールは、AI駆動型の実験的なコードエージェントで、開発者向けのインテリジェントな協力ツールを目指しています。GitHub ワークフローへの直接統合により、ジュールは開発者の指導と監督のもとで以下のタスクを遂行できます。
問題解決:コードベース内の特定の問題を識別し、解決策を提案します。 計画の策定:タスクの要件に基づいて詳細な実行計画を策定する。 タスクの実行:コードの変更を実現し、開発プロセスの完了を推進する。
ゲーム内のインテリジェントエージェント
Google DeepMind は、ゲームを利用して AI モデルが規則の遵守、計画立案、論理的推論の能力を向上させるために尽力してきました。例えば、先週のことでありますが、私たちは単一の画像から無限に多様化された 3D ゲームワールドを生成できる AI モデル「Genie 2」を公開しました(昨日紹介済み)。このような伝統と蓄積を背景に、DeepMind は Gemini 2.0 を基盤として新しい AI エージェントを開発し、ビデオゲームの仮想世界におけるナビゲーションに知能的なサポートを提供しています。
これらの AI エージェントには次の主要機能があります:
スクリーン推論能力:追加のデータなしで、ゲーム画面を観察するだけで現在の状況を理解します。 リアルタイム会話提案:自然言語を使用してプレイヤーと対話し、次の行動提案を行ってプレイヤーが挑戦をよりよく達成できるよう支援します。
Googleは、Supercellなどのトップゲーム開発者と協力し、これらのインテリジェントエージェントが異なるジャンルのゲームでのパフォーマンスをテストしています。
ストラテジーゲーム:『Clash of Clans』などにおいて、エージェントが複雑なルールを解釈し提案する能力をテストします。 カジュアルシミュレーション:『Hay Day』などにおいて、そのタスク理解と最適化能力を評価します。これらのテストを通じて、AIが異なるゲームルール、挑戦、目標に適応する能力を理解したいと考えています。
ロボティクス分野におけるインテリジェントエージェントの能力
AI エージェントの仮想世界における能力を探索するだけでなく、Gemini 2.0 の空間推論能力をロボティクス分野に応用し、物理世界でのタスク遂行を支援しようとしています。
Gemini 2.0 の空間推論能力に基づくと、将来的な AI エージェントは以下の能力を持つ可能性があります:
物理環境にあるオブジェクトを理解し、操作する。 組立、搬送、ナビゲーションなどの高精度を必要とする実際のタスクを支援する。 より高度な人機協力を実現し、産業、サービスおよび日常生活における効率を向上させる。