GoogleのAI発表会：マルチモーダル新作が登場

元の会社のAIがどんどん良くなっていくのを見るのはとても嬉しいです～

まず要点を見てください

Gemma 3 の多言語能力が目を引く：Googleは、パラメータ規模が1Bから27Bで、コンテキストウィンドウが128KのマルチモーダルモデルGemma 3を発表しました。このモデルは140以上の言語に対応しています。コミュニティは、このモデルが単一のGPUまたはTPU上で実行される可能性に期待を寄せています。
Gemini 2.0 Flashでは文から画像を生成するプロセスがより直接的になりました：Gemini 2.0 Flashは、ネイティブの画像生成機能を追加し、ユーザーがモデル内で文脈に関連する画像を直接生成できるようにしました。開発者はGoogle AI Studioを通じてこの機能を試すことができます。
Gemini RoboticsがAIを現実世界に真正面で導入：GoogleはYouTubeでGemini Roboticsを披露し、ロボットが現実世界とより自然にインタラクトできる高度な視覚-言語-動作モデルを示しました。

Gemma 3モデル：オープンソース分野における重大な新しい突破

オープンソースモデルとしての一つとしてLMArenaベンチマークテストで優れた成績を収めました。

Gemma 3 のリリースは、同規模のモデルにおけるパレートフロンティアを更新し、他の同等のモデルを大幅に上回っています。

さらに、Gemma 3 は視覚機能をコア機能の一つとして統合しており、以前の PaliGemma モデルの特性を完全に引き継いでいます（ShieldGemma は引き続き別ブランチとして存在します）。

ジェミニ 2.0 フラッシュ文から画像生成

ジェミニ 2.0 フラッシュは現在、ネイティブの画像生成機能を提供しており、ユーザーはモデル内ですぐにテキスト内容と密接に関連した画像を作成できます。インターフェースは少し複雑ですが、入口を見つければ、画像編集がこれまでになく簡単になります。

グーグルの開発者チームのメンバーであるカウシク・シヴァクマール氏は、「ジェミニのネイティブ画像生成機能を公開できて非常に嬉しく思います。現在まだ実験段階ですが、多くの進展があり、さらに皆さんのフィードバックを楽しみにしています！」と述べました。

グーグルのエンジニアであるモスタファ・デフガニ氏は興奮してこう語りました。「このチームでは毎日が特別です。混沌と創造性に満ちています！」

クリエイターコミュニティはジェミニ2.0フラッシュのパフォーマンスに感嘆し、今後 Gemma のような画像生成能力を持つモデルの登場を期待しています。

ジェミニロボティクスモデル

Google DeepMind は、ジェミニ2.0に基づいた次世代ロボットAIモデル「ジェミニロボティクス」を発表しました。その推論能力、インタラクティビティ、柔軟性、および汎化能力が強調されています。

Google DeepMindはApptronikとの提携を発表し、Gemini 2.0技術を搭載したヒューマノイドロボットを開発します。

Gemini Robotics-ERは、ロボットが物体検出、インタラクション認識、障害物回避を実現するためにGeminiモデルの具象的推論能力を利用可能にします。この技術により、ロボットはベンチマークテストで現在の最先端モデルよりも性能が倍になり、優れた汎化能力を示しました。

Google DeepMindとApptronikは、ApptronikのApolloロボットを含むGemini 2.0ベースのヒューマノイドロボットを開発しています。Gemini Robotics-ERは、ロボットが効率的にGeminiの具象的推論技術を使用して物体認識、インタラクション感知、障害物回避を実現させます。

Google DeepMindは、Gemini Roboticsモデルの目標は、ロボットがより自然で柔軟に多様なタスク環境に適応し、真の知能的なインタラクションを実現することだと強調しています。

GoogleのAI発表会：マルチモーダル新作が登場

まず要点を見てください

Gemma 3モデル：オープンソース分野における重大な新しい突破

ジェミニ 2.0 フラッシュ 文から画像生成

ジェミニ ロボティクス モデル

ジェミニ 2.0 フラッシュ文から画像生成

ジェミニロボティクスモデル