NVIDIA Edify 3D:スケーラブルな高品質3Dアセット生成

テキストプロンプトまたは参照画像から効率的に3Dアセットを生成することができます。

研究成果

PBRレンダリング、基本的なアルベド色、および表面法線の可視化を行い、その高品質な生成効果をさらに検証しました。

A full backpack with hanging space tools. 

A phonograph made of wood and gold. 

An orange factory robot arm. 

Edify 3D のトポロジーと応用

四角形メッシュトポロジー

を採用しており、適応的かつ整然としたトポロジ構造を持っています。この設計により、モデルの編集とレンダリングがより容易になり、3Dワークフローにシームレスに統合され、高い視覚的忠実度と柔軟性を提供します。この特性のおかげで、ユーザーはモデルを簡単に調整し最適化することができます。

応用例:3Dシーン生成

などの分野でのニーズに適しています。

生成パイプライン

  1. :テキスト記述から始め、システムは多視点拡散モデルを使用して指定されたオブジェクトの多視点RGB画像を生成します。
  2. 処理を行い、対応する表面法線図を合成します。
  3. :再構築モデルはRGB画像と法線図を組み合わせて、ニューラル3D表現を予測し、潜在空間の表現(Latent Tokens)を生成します。その後、等値面抽出とメッシュの後処理によってオブジェクトの幾何構造を生成します。
  4. 放大し、これらの画像をテクスチャマップに逆投影することで、高品質なテクスチャを作成します。

多視点拡散モデル

に拡張します。テキストプロンプトとカメラの方向が与えられると、これらのモデルは複数の角度からオブジェクトの外観を生成することができます。モデルの主なバリエーションには以下があります:

  1. :オブジェクトのRGB外観を生成します。
  2. :RGB画像とテキストから表面法線を生成します。
  3. :テクスチャと表面法線に基づいて高解像度出力を生成します。

は、視点間の注意機構をサポートし、軽量なMLPを通じてカメラの姿勢をエンコードし、時間軸に埋め込みます。

  • :訓練ビューの数を増やすことで、モデルが生成する画像はより自然で一貫性が高くなります。推論段階では、モデルは任意のビュー角度をサンプリングでき、多視点の一貫性を確保し、下流の3D再構築の範囲と品質を向上させます。

再構築モデル

に基づいたアーキテクチャを採用し、多視点画像から3Dメッシュ幾何学、テクスチャ、マテリアルマップを生成し、未見のオブジェクト(拡散モデルによって合成された2D出力を含む)に対して強い汎化能力を持っています。

  1. :再構築モデルはRGBと法線図に基づいて、潜在的な三平面(Triplane)表現を予測します。
  2. に基づく髪積表示を使用してPBR属性を生成します。
  3. :等値面抽出によって神経SDFを3Dメッシュに変換します。
  4. :四角形メッシュの最適化、UVマッピング、PBR属性のベイキングを含み、最終的に編集可能で設計準備完了の高品質アセットを生成します。

モデルのパフォーマンスと拡張性

  • :入力視点数が増えるにつれて、再構築モデルのパフォーマンスは大幅に向上します。この拡張性により、モデルはより多くの訓練ビューを提供することで、より高精度の結果を生成することができます。
  • :三平面マーカーのサイズが大きくなると、再構築の品質も向上し、異なる計算リソースに対するモデルの適応能力が示されます。

テキストから3Dアセットまでの完全なソリューションを提供し、生成結果は正確で自然であり、アートデザインや3D開発など幅広い分野で活用できます。

試用

https://build.nvidia.com/shutterstock/edify-3d

以下の画像は、Shutterstock 3D AI ジェネレータ*を使用して生成された3Dアセットで、レンダリング後にタイル画像として配置されています。画像はShutterstock提供です。