ChatPaper.aiChatPaper

확장 가능하고 다재다능한 3D 생성을 위한 구조화된 3D 잠재 변수

Structured 3D Latents for Scalable and Versatile 3D Generation

December 2, 2024
저자: Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
cs.AI

초록

우리는 다목적이고 고품질의 3D 에셋 생성을 위한 혁신적인 3D 생성 방법을 소개합니다. 이의 핵심은 다양한 출력 형식으로 디코딩이 가능한 통합된 구조화된 잠재 (SLAT) 표현입니다. 이를 위해 강력한 비전 기반 모델에서 추출된 밀도 높은 다중 뷰 시각적 특징과 희소하게 분포된 3D 그리드를 통합하여 구조적(기하학) 및 질감(외관) 정보를 포괄적으로 캡처하면서 디코딩 중에 유연성을 유지합니다. 우리는 SLAT에 맞춤화된 정정된 플로우 트랜스포머를 3D 생성 모델로 사용하고, 500K 다양한 객체의 대규모 3D 에셋 데이터셋에서 최대 20억 개의 파라미터로 모델을 훈련합니다. 우리의 모델은 텍스트 또는 이미지 조건으로 고품질 결과물을 생성하며, 유사한 규모의 최근 방법을 포함한 기존 방법을 크게 능가합니다. 우리는 이전 모델에서 제공되지 않았던 유연한 출력 형식 선택 및 지역 3D 편집 기능을 선보입니다. 코드, 모델 및 데이터는 공개될 예정입니다.
English
We introduce a novel 3D generation method for versatile and high-quality 3D asset creation. The cornerstone is a unified Structured LATent (SLAT) representation which allows decoding to different output formats, such as Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a sparsely-populated 3D grid with dense multiview visual features extracted from a powerful vision foundation model, comprehensively capturing both structural (geometry) and textural (appearance) information while maintaining flexibility during decoding. We employ rectified flow transformers tailored for SLAT as our 3D generation models and train models with up to 2 billion parameters on a large 3D asset dataset of 500K diverse objects. Our model generates high-quality results with text or image conditions, significantly surpassing existing methods, including recent ones at similar scales. We showcase flexible output format selection and local 3D editing capabilities which were not offered by previous models. Code, model, and data will be released.

Summary

AI-Generated Summary

PDF628December 6, 2024