DreamPolish : Distillation du score de domaine avec génération géométrique progressive
DreamPolish: Domain Score Distillation With Progressive Geometry Generation
November 3, 2024
Auteurs: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi
cs.AI
Résumé
Nous présentons DreamPolish, un modèle de génération de texte en 3D qui excelle dans la production de géométrie raffinée et de textures de haute qualité. Dans la phase de construction de la géométrie, notre approche exploite plusieurs représentations neuronales pour améliorer la stabilité du processus de synthèse. Au lieu de se fier uniquement à une diffusion conditionnée par la vue dans les nouvelles vues échantillonnées, ce qui entraîne souvent des artefacts indésirables sur la surface géométrique, nous incorporons un estimateur normal supplémentaire pour peaufiner les détails de la géométrie, conditionné par des points de vue avec des champs de vision variables. Nous proposons d'ajouter une étape de polissage de surface avec seulement quelques étapes d'entraînement, qui peut affiner efficacement les artefacts attribués à un guidage limité des étapes précédentes et produire des objets 3D avec une géométrie plus souhaitable. Le sujet clé de la génération de textures en utilisant des modèles texte-image pré-entraînés est de trouver un domaine adapté dans la vaste distribution latente de ces modèles qui contient des rendus photoréalistes et cohérents. Dans la phase de génération de textures, nous introduisons un nouvel objectif de distillation de score, à savoir la distillation de score de domaine (DSD), pour guider les représentations neuronales vers un tel domaine. Nous nous inspirons du guidage sans classificateur (CFG) dans les tâches de génération d'images conditionnées par du texte et montrons que le CFG et le guidage de distribution variationnelle représentent des aspects distincts dans le guidage de gradient et sont tous deux des domaines impératifs pour l'amélioration de la qualité des textures. Des expériences approfondies montrent que notre modèle proposé peut produire des actifs 3D avec des surfaces polies et des textures photoréalistes, surpassant les méthodes existantes de pointe.
English
We introduce DreamPolish, a text-to-3D generation model that excels in
producing refined geometry and high-quality textures. In the geometry
construction phase, our approach leverages multiple neural representations to
enhance the stability of the synthesis process. Instead of relying solely on a
view-conditioned diffusion prior in the novel sampled views, which often leads
to undesired artifacts in the geometric surface, we incorporate an additional
normal estimator to polish the geometry details, conditioned on viewpoints with
varying field-of-views. We propose to add a surface polishing stage with only a
few training steps, which can effectively refine the artifacts attributed to
limited guidance from previous stages and produce 3D objects with more
desirable geometry. The key topic of texture generation using pretrained
text-to-image models is to find a suitable domain in the vast latent
distribution of these models that contains photorealistic and consistent
renderings. In the texture generation phase, we introduce a novel score
distillation objective, namely domain score distillation (DSD), to guide neural
representations toward such a domain. We draw inspiration from the
classifier-free guidance (CFG) in textconditioned image generation tasks and
show that CFG and variational distribution guidance represent distinct aspects
in gradient guidance and are both imperative domains for the enhancement of
texture quality. Extensive experiments show our proposed model can produce 3D
assets with polished surfaces and photorealistic textures, outperforming
existing state-of-the-art methods.Summary
AI-Generated Summary