ChatPaper.aiChatPaper

TripoSG: 대규모 정정된 흐름 모델을 사용한 고도 신뢰성 3D 형상 합성

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

February 10, 2025
저자: Yangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao
cs.AI

초록

최근 확산 기술의 발전으로 이미지 및 비디오 생성은 전례 없는 수준의 품질로 높아져, 생성적 AI의 배포와 응용을 현저히 가속화시켰다. 그러나 3D 형상 생성 기술은 지금까지 3D 데이터 규모의 제한, 3D 데이터 처리의 복잡성, 그리고 3D 영역의 고급 기술 탐구의 부족으로 제약을 받아왔다. 현재의 3D 형상 생성 접근법은 출력 품질, 일반화 능력, 그리고 입력 조건과의 일치 측면에서 상당한 도전에 직면하고 있다. 우리는 TripoSG를 제안한다. 이는 입력 이미지와 정확한 대응을 갖는 고품질 3D 메쉬를 생성할 수 있는 새로운 간소화된 형상 확산 패러다임이다. 구체적으로 우리는 다음을 제안한다. 1) 상태-of-the-art 품질을 달성하는 3D 형상 생성을 위한 대규모 교정된 플로우 변환기, 고품질 데이터에 대한 훈련을 통해. 2) 고품질 3D 재구성 성능을 달성하는 3D VAE를 위한 SDF, normal, 그리고 eikonal 손실을 결합한 하이브리드 지도 학습 전략. 3) 데이터 처리 파이프라인을 통해 2백만 개의 고품질 3D 샘플을 생성하는 것으로, 3D 생성 모델 훈련에 있어 데이터 품질과 양의 중요한 규칙을 강조한다. 우리의 새로운 프레임워크의 각 구성 요소의 효과를 검증하기 위해 포괄적인 실험을 통해, TripoSG가 3D 형상 생성에서 최첨단 성능을 달성할 수 있었음을 확인했다. 결과적으로, 고해상도 능력으로 향상된 세부 사항을 보여주며 입력 이미지에 대한 예외적인 충실도를 나타내는 3D 형상이 생성되었다. 더불어, TripoSG는 다양한 이미지 스타일과 콘텐츠에서 3D 모델을 생성하는 데 향상된 다재다능성을 보여주며 강력한 일반화 능력을 진열한다. 3D 생성 분야에서 진전과 혁신을 촉진하기 위해 우리는 우리의 모델을 공개할 것이다.
English
Recent advancements in diffusion techniques have propelled image and video generation to unprece- dented levels of quality, significantly accelerating the deployment and application of generative AI. However, 3D shape generation technology has so far lagged behind, constrained by limitations in 3D data scale, complexity of 3D data process- ing, and insufficient exploration of advanced tech- niques in the 3D domain. Current approaches to 3D shape generation face substantial challenges in terms of output quality, generalization capa- bility, and alignment with input conditions. We present TripoSG, a new streamlined shape diffu- sion paradigm capable of generating high-fidelity 3D meshes with precise correspondence to input images. Specifically, we propose: 1) A large-scale rectified flow transformer for 3D shape generation, achieving state-of-the-art fidelity through training on extensive, high-quality data. 2) A hybrid supervised training strategy combining SDF, normal, and eikonal losses for 3D VAE, achieving high- quality 3D reconstruction performance. 3) A data processing pipeline to generate 2 million high- quality 3D samples, highlighting the crucial rules for data quality and quantity in training 3D gen- erative models. Through comprehensive experi- ments, we have validated the effectiveness of each component in our new framework. The seamless integration of these parts has enabled TripoSG to achieve state-of-the-art performance in 3D shape generation. The resulting 3D shapes exhibit en- hanced detail due to high-resolution capabilities and demonstrate exceptional fidelity to input im- ages. Moreover, TripoSG demonstrates improved versatility in generating 3D models from diverse image styles and contents, showcasing strong gen- eralization capabilities. To foster progress and innovation in the field of 3D generation, we will make our model publicly available.

Summary

AI-Generated Summary

PDF323February 14, 2025