Distillazione Progressiva del Rendering: Adattamento di Stable Diffusion per la Generazione Istantanea da Testo a Mesh senza Dati 3D
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
March 27, 2025
Autori: Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
cs.AI
Abstract
È estremamente desiderabile ottenere un modello in grado di generare mesh 3D di alta qualità da prompt testuali in pochi secondi. Sebbene i recenti tentativi abbiano adattato modelli di diffusione pre-addestrati da testo a immagine, come Stable Diffusion (SD), in generatori di rappresentazioni 3D (ad esempio, Triplane), spesso soffrono di una qualità scadente a causa della mancanza di dati di addestramento 3D di alta qualità sufficienti. Con l'obiettivo di superare la carenza di dati, proponiamo un nuovo schema di addestramento, denominato Progressive Rendering Distillation (PRD), che elimina la necessità di ground-truth 3D distillando modelli di diffusione multi-vista e adattando SD in un generatore 3D nativo. In ogni iterazione dell'addestramento, PRD utilizza la U-Net per denoisare progressivamente il latente dal rumore casuale per pochi passi, e in ogni passo decodifica il latente denoisato in un output 3D. Modelli di diffusione multi-vista, tra cui MVDream e RichDreamer, vengono utilizzati insieme a SD per distillare texture e geometrie coerenti con il testo negli output 3D attraverso la distillazione del punteggio. Poiché PRD supporta l'addestramento senza ground-truth 3D, possiamo facilmente scalare i dati di addestramento e migliorare la qualità della generazione per prompt testuali complessi con concetti creativi. Nel frattempo, PRD può accelerare la velocità di inferenza del modello di generazione in pochi passi. Con PRD, addestriamo un generatore Triplane, denominato TriplaneTurbo, che aggiunge solo il 2,5% di parametri addestrabili per adattare SD alla generazione di Triplane. TriplaneTurbo supera i precedenti generatori da testo a 3D sia in efficienza che in qualità. In particolare, è in grado di produrre mesh 3D di alta qualità in 1,2 secondi e generalizza bene per input testuali complessi. Il codice è disponibile all'indirizzo https://github.com/theEricMa/TriplaneTurbo.
English
It is highly desirable to obtain a model that can generate high-quality 3D
meshes from text prompts in just seconds. While recent attempts have adapted
pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into
generators of 3D representations (e.g., Triplane), they often suffer from poor
quality due to the lack of sufficient high-quality 3D training data. Aiming at
overcoming the data shortage, we propose a novel training scheme, termed as
Progressive Rendering Distillation (PRD), eliminating the need for 3D
ground-truths by distilling multi-view diffusion models and adapting SD into a
native 3D generator. In each iteration of training, PRD uses the U-Net to
progressively denoise the latent from random noise for a few steps, and in each
step it decodes the denoised latent into 3D output. Multi-view diffusion
models, including MVDream and RichDreamer, are used in joint with SD to distill
text-consistent textures and geometries into the 3D outputs through score
distillation. Since PRD supports training without 3D ground-truths, we can
easily scale up the training data and improve generation quality for
challenging text prompts with creative concepts. Meanwhile, PRD can accelerate
the inference speed of the generation model in just a few steps. With PRD, we
train a Triplane generator, namely TriplaneTurbo, which adds only 2.5%
trainable parameters to adapt SD for Triplane generation. TriplaneTurbo
outperforms previous text-to-3D generators in both efficiency and quality.
Specifically, it can produce high-quality 3D meshes in 1.2 seconds and
generalize well for challenging text input. The code is available at
https://github.com/theEricMa/TriplaneTurbo.Summary
AI-Generated Summary