Latenti strutturati in 3D per la generazione scalabile e versatile di modelli 3D.

Structured 3D Latents for Scalable and Versatile 3D Generation

December 2, 2024
Autori: Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
cs.AI

Abstract

Introduciamo un nuovo metodo di generazione 3D per la creazione versatile e di alta qualità di asset 3D. La pietra angolare è una rappresentazione unificata Strutturata LATente (SLAT) che consente la decodifica in diversi formati di output, come Campi di Radiazione, Gaussiane 3D e mesh. Ciò è ottenuto integrando una griglia 3D scarsamente popolata con caratteristiche visive multiview dense estratte da un potente modello di fondazione visiva, catturando in modo esaustivo informazioni strutturali (geometria) e testuali (aspetto) mantenendo flessibilità durante la decodifica. Utilizziamo trasformatori di flusso rettificati adattati per SLAT come i nostri modelli di generazione 3D e addestriamo modelli con fino a 2 miliardi di parametri su un ampio dataset di asset 3D di 500K oggetti diversi. Il nostro modello genera risultati di alta qualità con condizioni di testo o immagine, superando significativamente i metodi esistenti, inclusi quelli recenti a scale simili. Mostreremo la flessibilità nella selezione del formato di output e le capacità di modifica 3D locali che non erano offerte dai modelli precedenti. Il codice, il modello e i dati saranno resi disponibili.
English
We introduce a novel 3D generation method for versatile and high-quality 3D asset creation. The cornerstone is a unified Structured LATent (SLAT) representation which allows decoding to different output formats, such as Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a sparsely-populated 3D grid with dense multiview visual features extracted from a powerful vision foundation model, comprehensively capturing both structural (geometry) and textural (appearance) information while maintaining flexibility during decoding. We employ rectified flow transformers tailored for SLAT as our 3D generation models and train models with up to 2 billion parameters on a large 3D asset dataset of 500K diverse objects. Our model generates high-quality results with text or image conditions, significantly surpassing existing methods, including recent ones at similar scales. We showcase flexible output format selection and local 3D editing capabilities which were not offered by previous models. Code, model, and data will be released.

Summary

AI-Generated Summary

PDF566December 6, 2024