マイクロソフトのTRELLIS: 高品質な3Dアセット生成モデル

マイクロソフトは最近、高品質な3Dアセットの生成方法を提案しました。これは統一された構造化潜在(Structured LATent、略してSLAT)表現と修正フロートランスフォーマー(Rectified Flow Transformers)に基づいており、柔軟で効率的な3D生成を実現します。

論文の核心

  1. 統一された構造化潜在表現(SLAT)

  • SLATは、スパースな3Dメッシュと視覚基盤モデルから抽出された密集した多視点特徴を組み合わせています。
  • 幾何学的構造(Structural)とテクスチャ情報(Textural)を捕捉し、放射場(Radiance Fields)、3Dガウス(3D Gaussians)、メッシュ(Meshes)などの複数のデコード形式に対応しています。
  • 異なるニーズに応じて多様な3D形式を出力する柔軟なデコード能力を提供します。
  • 強力な生成モデルアーキテクチャ

    • SLAT専用にカスタマイズされた修正フロートランスフォーマーを使用して核心モデルとしています。
    • 50万種類以上の多様なオブジェクトを含む大規模な3Dアセットデータセット上で訓練され、パラメータ規模は20億に達します。
  • 柔軟な生成と編集能力

    • テキストまたは画像入力による高品質な3Dアセットの生成をサポートしており、既存の手法よりも著しく優れています。
    • 多様な出力形式の選択肢と局所的な3D編集機能を提供しており、これまでは不可能でした。
  • 革新的な応用シーン

    • 生成された3Dアセットは、複雑なアートデザイン、アセットバリエーションの生成、および局所領域の精密操作に使用できます。

    主要な機能とデモ

    テキストから3Dアセットを生成

    画像から3Dアセットを生成

    アセットバリエーションの生成

    局所領域の操作

    方法の概要:SLAT と TRELLIS

    構造化潜在表現(SLAT)

    SLATは、スパース構造と視覚表現を組み合わせます:

    • オブジェクト表面と交差するアクティブボクセル上に局所潜在変数を定義します。
    • 強力な事前学習済み視覚エンコーダーによって生成される、多視点レンダリングのための密集した画像特徴を結合します。
    • アクティブボクセルは粗い幾何学的構造を提供し、視覚特徴は細かい幾何学的形状とテクスチャの詳細を捕捉します。

    TRELLISモデルアーキテクチャ

    1. 二段階生成パイプライン

    • SLATのスパース構造を生成します。
    • 非空セルに対して潜変数を生成します。
  • 修正フロートランスフォーマー

    • SLATのスパース性に適応し、主幹モデルとして機能します。
  • 多形式出力と編集

    • 異なるデコーダーを通じて、SLATを高品質な3D表現にマッピングし、多様なニーズに対応します。

    応用

    HuggingFaceで試してみましたが、効果は悪くないですが、商用用途ではまだ制御性に欠けているようです。