확장 가능하고 다재다능한 3D 생성을 위한 구조화된 3D 잠재 변수
Structured 3D Latents for Scalable and Versatile 3D Generation
December 2, 2024
저자: Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
cs.AI
초록
우리는 다목적이고 고품질의 3D 에셋 생성을 위한 혁신적인 3D 생성 방법을 소개합니다. 이의 핵심은 다양한 출력 형식으로 디코딩이 가능한 통합된 구조화된 잠재 (SLAT) 표현입니다. 이를 위해 강력한 비전 기반 모델에서 추출된 밀도 높은 다중 뷰 시각적 특징과 희소하게 분포된 3D 그리드를 통합하여 구조적(기하학) 및 질감(외관) 정보를 포괄적으로 캡처하면서 디코딩 중에 유연성을 유지합니다. 우리는 SLAT에 맞춤화된 정정된 플로우 트랜스포머를 3D 생성 모델로 사용하고, 500K 다양한 객체의 대규모 3D 에셋 데이터셋에서 최대 20억 개의 파라미터로 모델을 훈련합니다. 우리의 모델은 텍스트 또는 이미지 조건으로 고품질 결과물을 생성하며, 유사한 규모의 최근 방법을 포함한 기존 방법을 크게 능가합니다. 우리는 이전 모델에서 제공되지 않았던 유연한 출력 형식 선택 및 지역 3D 편집 기능을 선보입니다. 코드, 모델 및 데이터는 공개될 예정입니다.
English
We introduce a novel 3D generation method for versatile and high-quality 3D
asset creation. The cornerstone is a unified Structured LATent (SLAT)
representation which allows decoding to different output formats, such as
Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a
sparsely-populated 3D grid with dense multiview visual features extracted from
a powerful vision foundation model, comprehensively capturing both structural
(geometry) and textural (appearance) information while maintaining flexibility
during decoding. We employ rectified flow transformers tailored for SLAT as our
3D generation models and train models with up to 2 billion parameters on a
large 3D asset dataset of 500K diverse objects. Our model generates
high-quality results with text or image conditions, significantly surpassing
existing methods, including recent ones at similar scales. We showcase flexible
output format selection and local 3D editing capabilities which were not
offered by previous models. Code, model, and data will be released.Summary
AI-Generated Summary