NVIDIAのコスモス世界モデル

は、物理的人工知能（AI）システムの開発を加速するために設計された世界モデル開発プラットフォームで、ロボティクスと自動運転車（AV）ラボの応用に焦点を当てています。

Cosmosプラットフォームは、世界基盤モデル（WFM）、トークナイザー、およびビデオ処理パイプラインを統合し、物理AIの研究開発を加速することを目指しています。Cosmosのコードベースは、ユーザーがCosmosモデルを実行し、推論スクリプトを実行し、関連するビデオを生成するのに役立ちます。リリース後、GitHub Starが急上昇しました。

NVIDIA Cosmosのコアコンポーネント

NVIDIA Cosmos™は、開発者向けに設計された世界基盤モデルプラットフォームであり、物理AI開発者がより効率的に物理AIシステムを構築できるよう支援します。このプラットフォームには次の主要な要素が含まれています：

：Hugging Faceプラットフォームを通じて、ユーザーは商用利用可能な事前学習済みモデルを無料で取得でき、これらのモデルはNVIDIAオープンモデルライセンス（NVIDIA Open Model License）に従っています。
：NVIDIA Nemoフレームワークを通じて、事前学習済みモデルの後続トレーニングを行うためのApache 2ライセンスに基づく訓練スクリプトが提供され、さまざまな物理AIアプリケーションをサポートします。

主要機能

：テキストから世界（Text2World）とビデオから世界（Video2World）の生成をサポートし、ユーザーはテキストまたはビデオのプロンプトを使用して視覚シミュレーションを生成できます。

：同様にビデオから世界の生成をサポートし、ユーザーはビデオプロンプトとオプションのテキストプロンプトを使用して視覚シミュレーションを生成できます。

：効率的にビデオを連続的なマーク（潜在ベクトル）と離散的なマーク（整数）に分解し、効率的なビデオ処理を実現します。
：ユーザーが独自のビデオデータセットを作成するのを支援します。
：NeMoフレームワークを使用して事前学習された世界基礎モデルの後期トレーニングを行い、さまざまな物理AIシーンに適用します。
：NeMo フレームワークを通じて、ユーザーが独自の世界基盤モデルを構築するのを支援します。

主な利点

物理AI開発の加速

Cosmos は、オープンでアクセスしやすい高性能な世界基盤モデルとデータパイプラインを提供し、物理AIの開発をより広範に普及させます。

物理認識

Cosmos には、9000兆個のトークンでトレーニングされた最初のビデオベースのモデルが含まれており、2000万時間のロボティクスと自動運転データを含み、画像、テキスト、またはビデオなどのマルチモーダル入力から高品質なビデオを生成できます。

オープン性

Cosmos のワールドファンデーションモデル（WFM）とトークナイザーは NVIDIA オープンモデルライセンスに準拠しており、世界中の開発者が高額な費用をかけずに物理的な AI システムをスケーラブルに構築することができます。

データ処理とフィルタリングの加速

NVIDIA NeMo Curator パイプラインと CUDA™-X、NVIDIA AI 加速ツールを通じて、Cosmos は 20 倍のデータ処理能力を提供し、100PB を超えるデータの処理をサポートします。これらのツールはユーザーに即時利用可能な最適化を提供し、総所有コスト（TCO）を削減するとともに、製品の市場投入時間を短縮します。

カスタマイズモデルの開発

Cosmos のトークナイザーは、視覚データを高忠実度のマークに変換でき、8倍優れた圧縮率と12倍速い処理速度を提供します。

NVIDIA NeMo™ は加速されたトレーニングとファインチューニング機能を提供し、ユーザーがマルチモーダル生成AIモデルを構築し、物理AIのニーズをサポートするのに役立ちます。

モデルの紹介

：自己回帰モデルと拡散モデルを含み、テキストから世界、ビデオから世界の生成をサポート。パラメータ規模は4億から14億までで、異なるニーズに対応しています。ダウンロードアドレス：https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
：テキストプロンプトの処理を最適化し、生成結果の精度と詳細を向上させます。
：ビデオシーケンスのデコードに特化しており、拡張現実（AR）アプリケーション向けに最適化されています。
組み込み保護メカニズム：

：ブランド、危険なコンテンツおよび有害なヒントをフィルタリングし、Cosmosが生成するコンテンツの安全性を確保します。
：疑わしいシーンを削除します。
：ビデオ中の顔を自動でぼかします。
：NVIDIA API カタログのプレビュー API で生成された合成ビデオにデジタル透かしを追加します。

使用事例

開発者がNVIDIA Cosmosをどのように使用するか

ロボティクス、自動運転、視覚AIなどのアプリケーションを含め、さまざまな分野の開発者がCosmosをどのように活用して仕事に取り組んでいるかについて学びます。

ビデオ検索

Cosmosは、開発者がAIモデルのトレーニングに必要なカスタムデータセットを作成するために役立ちます。自動運転車の雪道の映像や、ロボティクスアプリケーションにおける忙しい倉庫のシーンなど、Cosmosは空間と時間のパターンを理解することで、ビデオのラベル付けや検索を簡素化し、トレーニングデータの準備をより効率的にします。これにより、時間を節約し、コストを削減できるだけでなく、実際の応用に大きな影響を与える高精度なAIモデルの提供が可能になります。

制御可能な3Dからリアルな合成データ

開発者は、3Dシミュレーションデータを使用して現実感のある合成ビデオを生成できます。Omniverseを通じて、開発者はモデル訓練の要件に合った3D環境を作成し、3Dシーンを正確に制御することでリアルなビデオを生成し、高度にカスタマイズされた合成データセットを作成します。

戦略モデルの訓練と評価

Cosmos世界基盤モデルは微調整され、行動条件に基づくビデオ予測をサポートしています。これにより、戦略モデルの訓練と評価がスケーラブルかつ再現可能になり、戦略モデルは物理AIシステムの行動計画を定義し、状態と動作を対応させます。開発者はこれらのモデルを通じて、高リスクな現実世界でのテストや複雑なシミュレーションへの依存を減らし、障害物回避や物体操作などのタスクのパフォーマンスを最適化し、ロボティクスや自動運転など実際のアプリケーションにおける信頼性を確保できます。

先見的な知能

Cosmosは、物理AIに進んだ予測知能をもたらし、システムが未来のシーンを予測し、より賢い意思決定を行うことを可能にします。過去のデータとテキストプロンプトに基づいて予測ビデオを生成する先見的な生成機能により、Cosmosは物理AIに最適な行動を選択させ、効率、適応性、そして動的環境における安全性を向上させます。

多重宇宙シミュレーション

NVIDIA Omniverse を使用することで、開発者は複数の Cosmos の結果をシミュレートし、リアルタイムのシーンを評価し、意思決定プロセスを加速させ、ロボットや自動運転などのAI駆動システムを最適化することができます。Cosmos と Omniverse の統合により、物理ベースのAIモデルがすべての可能な未来の結果を探索し、最適なパスを選択し、複雑な環境における精度と信頼性を向上させることができます。