ポケモンGOの開発会社であるNianticがLGM(Large Geospatial Model)モデルを発表しました。

最近、再び『千の脳』を読み直しました。この本は昨年一度読んだことがあり、その時に感想も書きました:

、この世界モデルを不断完善するために。

このモデルは、『千脳の知能』で説明されている「世界モデル」と非常に似ており、どちらも環境に対する理解と構築をより賢い方法で試みています。

定義

に関する深い理解が抽出され、位置情報に基づく認知システムが形成されます。

テキストベースのモデルから3Dデータベースのモデルへの移行は、近年のAI発展の全体的な傾向を反映しています:言語の理解と生成(テキストモデル)から、静的および動的画像の解釈と作成(2D視覚モデル)へ、そして現在急速に発展している物体の3次元外観のモデリング(3D視覚モデル)へと進化しています。

」能力を持ち、過去に見た類似のシーンに基づいて詳細を推測できるためです。しかし、機械にとってはこのタスクは非常に複雑です。現在でもっとも先進的なAIモデルであっても、シーンの補完や新しい角度からある場所を想像するのは困難です。しかし、空間知能がこの限界を超え、次のAI発展の最前線になるでしょう。

VPS 可視化位置システム

の構築に注力してきました。スマートフォンで撮影した写真一枚から、VPSはユーザーがゲームやScaniverseでスキャンした興味深い場所から作成された三次元マップを使用し、デバイスの位置と方向を特定します。

、世界中の100万以上の場所をカバーしています。LGMのビジョンでは、各ローカルモデルがグローバルな大規模モデルに貢献し、未スキャンの場所に対する理解と認識を実現します。

特徴

  • センチメートル級の精密な位置決めにより、デジタルと現実が無縫融合します

    です。ユーザーは物理環境の中で正確に位置を特定できるだけでなく、周囲の環境と完全に調和したデジタルコンテンツを見ることができます。これらのコンテンツには持続性があり、ユーザーが離れた後も指定された場所に残り、他の人と共有できます。例えば、最近Pokémon GOで導入された実験的な機能である「Pokémon Playgrounds」では、ユーザーはポケモンを特定の場所に配置でき、他のプレイヤーも同じ場所でそのポケモンを見つけてインタラクトすることができます。

  • 独自のデータソースによって、高精度の世界理解を構築します

    NianticのVPSシステムは、ユーザーが異なる視点や時間帯でスキャンした場所データに依存しており、一日の中の複数の時間帯や複数年にわたる蓄積を含んでいます。これらのスキャンデータには精密な位置情報が付加されており、世界に対する非常に詳細な理解を構築しています。特にユニークなのは、歩行者の視点から取得されたこれらのデータで、車両ではアクセスできない多くの場所も含まれており、システムに豊富な詳細と独自の視点を提供します。

  • 未来への応用シーン

    VPS技術の継続的な成熟に伴い、ユーザーはよりリアルで持続可能かつ共有可能な拡張現実のコンテンツを体験できるようになります。この能力はエンターテインメント分野で大きな成果を収めるだけでなく、ナビゲーション、コンテンツ作成、ソーシャルインタラクションなどの領域での革新を推進し、仮想と現実が融合した未来の世界の構築に基礎を提供します。

コアアドバンテージ

LGMの核心は、地理的および視覚的情報から一貫したグローバルな認識を抽出することです。全世界規模でのデータの内挿および外挿を通じて、LGMは局所モデルの盲点を補完し、位置特定のカバレッジと精度を向上させます。この「全体から部分を推測する」能力により、LGMは将来の空間知能にとって重要な基盤となっています。

  • 「教会」という概念を内面化し、その構造的な特徴だけでなく、異なる教会が持つ可能性のある形態を推測する能力。
  • ある場所の局所モデルが教会の正面のみを捉えている場合でも、LGMは世界中の教会データを基にその建物の背面の様子を賢く推定することができます。
  • LGM は、VPS が観測したことのない視点や角度でも位置を特定できるため、局所モデルでは不可能なことを実現しています。

人間化された理解:機械ビジョンから空間インテリジェンスへ

上記のプロセスは、人間が世界を認識し想像する方法と非常に似ています。私たちは、以前に見たものを異なる角度からも簡単に識別できます。例えば、ヨーロッパの古い都市の曲がりくねった道を歩いているとき、たとえ一度しか通ったことがなく、その時の視点が逆であっても、すべての重要な交差点をすぐに認識することができます。この能力は、物理的および文化的な空間に対する深い理解に基づいています。

この理解には、基本的な自然法則に関する認識が含まれます:世界は前方と後方を持つ物体で構成されており、物体の外見は時間や季節の変化によって変わります。さらに、一定の文化知識も必要です:多くの人工物の形状は、特定の対称規則や一般的なレイアウトパターンに従っており、これらの規則は地理的地域によって異なります。

MicKey:初期探査の概念実証

の可能性を示しました。MicKeyは、視点が極端に異なる場合でも、2つのカメラビュー間の位置関係を正確に特定することができます。MicKeyの訓練データは全体データの一部に過ぎず、また2ビュー入力のみをサポートしていますが、それでもLGMの可能性に対する重要な概念実証を提供しています。

このような地理的知能を実現するには膨大な地理空間データが必要であり、これは多くの組織が容易に手に入れることのできないリソースです。毎週100万回を超えるユーザーによるリアルワールドスキャンのおかげで、NianticはLGMの構築において独自の優位性を持っています。

機械学習駆動の高レベルな理解

初期のコンピュータビジョン研究では、世界の規則をハードコーディングによって手動で解析しようとしましたが、実践を通じて明らかになったのは、LGMへの期待を達成するには大規模な機械学習に頼るしかないとです。NianticのLGMプロジェクトはこの理念に基づき、世界中から地理的および視覚的なデータを集約しています。

MicKeyが示したカメラ位置特定能力の初期段階から、将来的な包括的な地理的知能に至るまで、Nianticは人間のような空間理解を目指して着実に進んでいます。この飛躍は技術進化の必然的な流れであり、同時に世界規模での地理的知能と拡張現実技術の未来を支える基盤ともなります。

LGMの幅広い応用

よりスケーラブルなモデルへ移行するにつれ、Nianticの目標は引き続きLGMの開発をリードし、これらのモデルがユーザーに新しい、楽しい、そして意味のある体験を提供できるあらゆる場所で機能することを確保することです。LGMは、ゲーム(特にARゲーム)、空間計画とデザイン、物流管理、受衆参加、遠隔協力など、さまざまな分野で広範な応用が見込まれています。