LLaMA-Mesh: 언어 모델을 활용한 3D 매쉬 생성 통합
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models
November 14, 2024
저자: Zhengyi Wang, Jonathan Lorraine, Yikai Wang, Hang Su, Jun Zhu, Sanja Fidler, Xiaohui Zeng
cs.AI
초록
본 연구는 텍스트로 사전 훈련된 대규모 언어 모델(Large Language Models, LLMs)의 기능을 확장하여 통합 모델 내에서 3D 메쉬를 생성하는 것을 탐구한다. 이는 (1) LLMs에 이미 포함된 공간 지식을 활용함으로써 3D 자습서와 같은 텍스트 소스에서 유래된 것과 같은 장점을 제공하며, (2) 대화식 3D 생성 및 메쉬 이해를 가능하게 한다. 주요 과제는 LLMs가 원활하게 처리할 수 있는 이산 토큰으로 3D 메쉬 데이터를 효과적으로 토큰화하는 것이다. 이를 해결하기 위해 우리는 LLaMA-Mesh라는 새로운 접근법을 소개한다. 이 접근법은 3D 메쉬의 정점 좌표와 면 정의를 일반 텍스트로 표현하여 어휘를 확장하지 않고도 LLMs와 직접 통합할 수 있게 한다. 우리는 사전 훈련된 LLMs가 (1) 텍스트 프롬프트로부터 3D 메쉬를 생성하고, (2) 필요에 따라 교차로운 텍스트와 3D 메쉬 출력을 생성하며, (3) 3D 메쉬를 이해하고 해석할 수 있도록 하는 지도된 미세 조정(Supervised Fine-Tuning, SFT) 데이터셋을 구축한다. 본 연구는 LLMs가 복잡한 공간 지식을 획득하기 위해 미세 조정될 수 있음을 처음으로 입증하며, 텍스트 기반 형식에서 3D 메쉬 생성을 위해 효과적으로 3D 및 텍스트 모달리티를 통합한다. LLaMA-Mesh는 제로부터 훈련된 모델과 유사한 메쉬 생성 품질을 달성하면서 강력한 텍스트 생성 성능을 유지한다.
English
This work explores expanding the capabilities of large language models (LLMs)
pretrained on text to generate 3D meshes within a unified model. This offers
key advantages of (1) leveraging spatial knowledge already embedded in LLMs,
derived from textual sources like 3D tutorials, and (2) enabling conversational
3D generation and mesh understanding. A primary challenge is effectively
tokenizing 3D mesh data into discrete tokens that LLMs can process seamlessly.
To address this, we introduce LLaMA-Mesh, a novel approach that represents the
vertex coordinates and face definitions of 3D meshes as plain text, allowing
direct integration with LLMs without expanding the vocabulary. We construct a
supervised fine-tuning (SFT) dataset enabling pretrained LLMs to (1) generate
3D meshes from text prompts, (2) produce interleaved text and 3D mesh outputs
as required, and (3) understand and interpret 3D meshes. Our work is the first
to demonstrate that LLMs can be fine-tuned to acquire complex spatial knowledge
for 3D mesh generation in a text-based format, effectively unifying the 3D and
text modalities. LLaMA-Mesh achieves mesh generation quality on par with models
trained from scratch while maintaining strong text generation performance.Summary
AI-Generated Summary