NVIDIAがオープンソース化した3Dプロジェクト LLaMA-Mesh

プロジェクト概要

LLaMA-Mesh は、NVIDIAがオープンソース化した3Dプロジェクトで、大規模言語モデル（LLMs）を3Dメッシュ生成分野に導入することを目指しています。3Dメッシュをテキスト形式で表現し、モデルを微調整することで、LLMsに3Dメッシュの理解と生成能力を持たせます。この手法により、3Dとテキストモーダリティが同一モデル内で統一され、言語処理能力も維持されるため、対話型の3D創作やメッシュ理解の新しい可能性が広がります。

コア機能

：言語による説明から直接複雑な3Dメッシュを生成でき、3Dモデリングの直感性と効率性を向上させます。
：LLMの意味理解能力を活用して既存の3Dメッシュを分析し、スマートな3D資産分析や管理をサポートします。

キーメリット

：3Dチュートリアルなどのテキストソースから事前知識を獲得し、3Dメッシュ生成に独自の利点を提供します。
：自然言語による対話を通じて、3Dメッシュの生成と理解のタスクを完了できます。

方法概要

LLaMA-Mesh は統一された形式を採用し、頂点座標と面の定義の数値を純テキストに変換し、テキストと3Dメッシュが交互に現れるデータ上でエンドツーエンドのトレーニングを行います。ファインチューニングされたモデルは、高品質な3Dメッシュを生成するだけでなく、強力なテキスト生成および理解能力も維持します。

試用

Hugging Face で現在試用可能です：https://huggingface.co/spaces/Zhengyi/LLaMA-Mesh