DreamPolish : Distillation du score de domaine avec génération géométrique progressive

DreamPolish: Domain Score Distillation With Progressive Geometry Generation

November 3, 2024
Auteurs: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi
cs.AI

Résumé

Nous présentons DreamPolish, un modèle de génération de texte en 3D qui excelle dans la production de géométrie raffinée et de textures de haute qualité. Dans la phase de construction de la géométrie, notre approche exploite plusieurs représentations neuronales pour améliorer la stabilité du processus de synthèse. Au lieu de se fier uniquement à une diffusion conditionnée par la vue dans les nouvelles vues échantillonnées, ce qui entraîne souvent des artefacts indésirables sur la surface géométrique, nous incorporons un estimateur normal supplémentaire pour peaufiner les détails de la géométrie, conditionné par des points de vue avec des champs de vision variables. Nous proposons d'ajouter une étape de polissage de surface avec seulement quelques étapes d'entraînement, qui peut affiner efficacement les artefacts attribués à un guidage limité des étapes précédentes et produire des objets 3D avec une géométrie plus souhaitable. Le sujet clé de la génération de textures en utilisant des modèles texte-image pré-entraînés est de trouver un domaine adapté dans la vaste distribution latente de ces modèles qui contient des rendus photoréalistes et cohérents. Dans la phase de génération de textures, nous introduisons un nouvel objectif de distillation de score, à savoir la distillation de score de domaine (DSD), pour guider les représentations neuronales vers un tel domaine. Nous nous inspirons du guidage sans classificateur (CFG) dans les tâches de génération d'images conditionnées par du texte et montrons que le CFG et le guidage de distribution variationnelle représentent des aspects distincts dans le guidage de gradient et sont tous deux des domaines impératifs pour l'amélioration de la qualité des textures. Des expériences approfondies montrent que notre modèle proposé peut produire des actifs 3D avec des surfaces polies et des textures photoréalistes, surpassant les méthodes existantes de pointe.
English
We introduce DreamPolish, a text-to-3D generation model that excels in producing refined geometry and high-quality textures. In the geometry construction phase, our approach leverages multiple neural representations to enhance the stability of the synthesis process. Instead of relying solely on a view-conditioned diffusion prior in the novel sampled views, which often leads to undesired artifacts in the geometric surface, we incorporate an additional normal estimator to polish the geometry details, conditioned on viewpoints with varying field-of-views. We propose to add a surface polishing stage with only a few training steps, which can effectively refine the artifacts attributed to limited guidance from previous stages and produce 3D objects with more desirable geometry. The key topic of texture generation using pretrained text-to-image models is to find a suitable domain in the vast latent distribution of these models that contains photorealistic and consistent renderings. In the texture generation phase, we introduce a novel score distillation objective, namely domain score distillation (DSD), to guide neural representations toward such a domain. We draw inspiration from the classifier-free guidance (CFG) in textconditioned image generation tasks and show that CFG and variational distribution guidance represent distinct aspects in gradient guidance and are both imperative domains for the enhancement of texture quality. Extensive experiments show our proposed model can produce 3D assets with polished surfaces and photorealistic textures, outperforming existing state-of-the-art methods.

Summary

AI-Generated Summary

PDF91November 13, 2024