ChatPaper.aiChatPaper

TripoSG: Hochauflösende 3D-Form-Synthese unter Verwendung von groß angelegten rektifizierten Flussmodellen

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

February 10, 2025
Autoren: Yangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte in Diffusionstechniken die Erzeugung von Bildern und Videos auf unerreichte Qualitätsniveaus vorangetrieben und die Bereitstellung sowie Anwendung von generativer KI signifikant beschleunigt. Allerdings hinkt die Technologie zur 3D-Formgenerierung bisher hinterher, begrenzt durch Einschränkungen im Maßstab der 3D-Daten, der Komplexität der 3D-Datenverarbeitung und der unzureichenden Erforschung fortgeschrittener Techniken im 3D-Bereich. Aktuelle Ansätze zur 3D-Formgenerierung stehen vor erheblichen Herausforderungen hinsichtlich der Ausgabequalität, der Verallgemeinerungsfähigkeit und der Anpassung an Eingangsbedingungen. Wir stellen TripoSG vor, ein neues schlankes Formdiffusionsparadigma, das in der Lage ist, hochwertige 3D-Netze mit präziser Entsprechung zu Eingabebildern zu erzeugen. Konkret schlagen wir vor: 1) Einen groß angelegten rektifizierten Fluss-Transformer für die 3D-Formgenerierung, der durch das Training an umfangreichen, hochwertigen Daten einen Stand der Technik bei der Treue erreicht. 2) Eine hybride überwachte Trainingsstrategie, die SDF-, Normal- und Eikonal-Verluste für 3D-VAE kombiniert und eine hochwertige 3D-Rekonstruktionsleistung erzielt. 3) Eine Datenverarbeitungspipeline zur Erzeugung von 2 Millionen hochwertigen 3D-Mustern, die die entscheidenden Regeln für Datenqualität und -quantität beim Training von 3D-generativen Modellen hervorhebt. Durch umfassende Experimente haben wir die Wirksamkeit jedes Bestandteils in unserem neuen Rahmenwerk validiert. Die nahtlose Integration dieser Teile hat TripoSG ermöglicht, eine Spitzenleistung bei der 3D-Formgenerierung zu erreichen. Die resultierenden 3D-Formen zeigen aufgrund der hochauflösenden Fähigkeiten verbesserte Details und demonstrieren eine außergewöhnliche Treue zu den Eingabebildern. Darüber hinaus zeigt TripoSG eine verbesserte Vielseitigkeit bei der Erzeugung von 3D-Modellen aus verschiedenen Bildstilen und -inhalten und präsentiert starke Verallgemeinerungsfähigkeiten. Um Fortschritt und Innovation im Bereich der 3D-Generierung zu fördern, werden wir unser Modell öffentlich zugänglich machen.
English
Recent advancements in diffusion techniques have propelled image and video generation to unprece- dented levels of quality, significantly accelerating the deployment and application of generative AI. However, 3D shape generation technology has so far lagged behind, constrained by limitations in 3D data scale, complexity of 3D data process- ing, and insufficient exploration of advanced tech- niques in the 3D domain. Current approaches to 3D shape generation face substantial challenges in terms of output quality, generalization capa- bility, and alignment with input conditions. We present TripoSG, a new streamlined shape diffu- sion paradigm capable of generating high-fidelity 3D meshes with precise correspondence to input images. Specifically, we propose: 1) A large-scale rectified flow transformer for 3D shape generation, achieving state-of-the-art fidelity through training on extensive, high-quality data. 2) A hybrid supervised training strategy combining SDF, normal, and eikonal losses for 3D VAE, achieving high- quality 3D reconstruction performance. 3) A data processing pipeline to generate 2 million high- quality 3D samples, highlighting the crucial rules for data quality and quantity in training 3D gen- erative models. Through comprehensive experi- ments, we have validated the effectiveness of each component in our new framework. The seamless integration of these parts has enabled TripoSG to achieve state-of-the-art performance in 3D shape generation. The resulting 3D shapes exhibit en- hanced detail due to high-resolution capabilities and demonstrate exceptional fidelity to input im- ages. Moreover, TripoSG demonstrates improved versatility in generating 3D models from diverse image styles and contents, showcasing strong gen- eralization capabilities. To foster progress and innovation in the field of 3D generation, we will make our model publicly available.

Summary

AI-Generated Summary

PDF414February 14, 2025