DreamPolish: Distillazione del Punteggio del Dominio con Generazione Geometrica Progressiva
DreamPolish: Domain Score Distillation With Progressive Geometry Generation
November 3, 2024
Autori: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi
cs.AI
Abstract
Introduciamo DreamPolish, un modello di generazione testo-3D che eccelle nella produzione di geometrie raffinate e texture di alta qualità. Nella fase di costruzione della geometria, il nostro approccio sfrutta molteplici rappresentazioni neurali per migliorare la stabilità del processo di sintesi. Invece di fare affidamento esclusivamente su una diffusione condizionata alla vista nelle nuove viste campionate, che spesso porta a artefatti indesiderati sulla superficie geometrica, incorporiamo un ulteriore stimatore normale per rifinire i dettagli della geometria, condizionato a punti di vista con campi di vista variabili. Proponiamo di aggiungere una fase di rifinitura della superficie con solo pochi passaggi di addestramento, che può raffinare efficacemente gli artefatti attribuiti alla guida limitata dalle fasi precedenti e produrre oggetti 3D con geometrie più desiderabili. L'argomento chiave della generazione di texture utilizzando modelli preaddestrati testo-immagine è trovare un dominio adatto nella vasta distribuzione latente di questi modelli che contenga rendering fotorealistici e coerenti. Nella fase di generazione delle texture, introduciamo un nuovo obiettivo di distillazione del punteggio, chiamato distillazione del punteggio di dominio (DSD), per guidare le rappresentazioni neurali verso tale dominio. Ci ispiriamo alla guida senza classificatore (CFG) nei compiti di generazione di immagini condizionati al testo e mostriamo che CFG e la guida della distribuzione variazionale rappresentano aspetti distinti nella guida del gradiente e sono entrambi domini imperativi per il miglioramento della qualità della texture. Estesi esperimenti mostrano che il nostro modello proposto può produrre risorse 3D con superfici rifinite e texture fotorealistiche, superando i metodi esistenti all'avanguardia.
English
We introduce DreamPolish, a text-to-3D generation model that excels in
producing refined geometry and high-quality textures. In the geometry
construction phase, our approach leverages multiple neural representations to
enhance the stability of the synthesis process. Instead of relying solely on a
view-conditioned diffusion prior in the novel sampled views, which often leads
to undesired artifacts in the geometric surface, we incorporate an additional
normal estimator to polish the geometry details, conditioned on viewpoints with
varying field-of-views. We propose to add a surface polishing stage with only a
few training steps, which can effectively refine the artifacts attributed to
limited guidance from previous stages and produce 3D objects with more
desirable geometry. The key topic of texture generation using pretrained
text-to-image models is to find a suitable domain in the vast latent
distribution of these models that contains photorealistic and consistent
renderings. In the texture generation phase, we introduce a novel score
distillation objective, namely domain score distillation (DSD), to guide neural
representations toward such a domain. We draw inspiration from the
classifier-free guidance (CFG) in textconditioned image generation tasks and
show that CFG and variational distribution guidance represent distinct aspects
in gradient guidance and are both imperative domains for the enhancement of
texture quality. Extensive experiments show our proposed model can produce 3D
assets with polished surfaces and photorealistic textures, outperforming
existing state-of-the-art methods.Summary
AI-Generated Summary