TraumPolish: Domänen-Score-Verdichtung mit progressiver Geometrie-Generierung

DreamPolish: Domain Score Distillation With Progressive Geometry Generation

November 3, 2024
Autoren: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi
cs.AI

Zusammenfassung

Wir stellen DreamPolish vor, ein Text-zu-3D-Generierungsmodell, das sich durch die Erzeugung raffinierter Geometrie und hochwertiger Texturen auszeichnet. In der Geometriekonstruktionsphase nutzt unser Ansatz mehrere neuronale Repräsentationen, um die Stabilität des Syntheseprozesses zu verbessern. Anstatt sich ausschließlich auf eine ansichtskonditionierte Diffusionspriorität in den neuartig abgetasteten Ansichten zu verlassen, die oft zu unerwünschten Artefakten auf der geometrischen Oberfläche führt, integrieren wir einen zusätzlichen Normalenschätzer, um die Geometriedetails zu verfeinern, abhängig von Blickwinkeln mit unterschiedlichen Sichtfeldern. Wir schlagen vor, eine Oberflächenpolierungsstufe mit nur wenigen Trainingsschritten hinzuzufügen, die effektiv die Artefakte verfeinert, die auf eine begrenzte Anleitung aus früheren Phasen zurückzuführen sind, und 3D-Objekte mit wünschenswerterer Geometrie zu erzeugen. Das Hauptthema der Texturerzeugung unter Verwendung von vorab trainierten Text-zu-Bild-Modellen besteht darin, eine geeignete Domäne in der umfangreichen latenten Verteilung dieser Modelle zu finden, die fotorealistische und konsistente Darstellungen enthält. In der Texturerzeugungsphase führen wir ein neuartiges Score-Destillationsziel ein, nämlich die Domänenscore-Destillation (DSD), um neuronale Repräsentationen in Richtung einer solchen Domäne zu lenken. Wir lassen uns von der klassifiziererfreien Anleitung (CFG) bei textkonditionierten Bildgenerierungsaufgaben inspirieren und zeigen, dass CFG und Anleitung durch variational Distribution unterschiedliche Aspekte in der Gradientenanleitung darstellen und beide entscheidende Domänen für die Verbesserung der Texturqualität sind. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes Modell 3D-Assets mit polierten Oberflächen und fotorealistischen Texturen erzeugen kann und dabei bestehende State-of-the-Art-Methoden übertrifft.
English
We introduce DreamPolish, a text-to-3D generation model that excels in producing refined geometry and high-quality textures. In the geometry construction phase, our approach leverages multiple neural representations to enhance the stability of the synthesis process. Instead of relying solely on a view-conditioned diffusion prior in the novel sampled views, which often leads to undesired artifacts in the geometric surface, we incorporate an additional normal estimator to polish the geometry details, conditioned on viewpoints with varying field-of-views. We propose to add a surface polishing stage with only a few training steps, which can effectively refine the artifacts attributed to limited guidance from previous stages and produce 3D objects with more desirable geometry. The key topic of texture generation using pretrained text-to-image models is to find a suitable domain in the vast latent distribution of these models that contains photorealistic and consistent renderings. In the texture generation phase, we introduce a novel score distillation objective, namely domain score distillation (DSD), to guide neural representations toward such a domain. We draw inspiration from the classifier-free guidance (CFG) in textconditioned image generation tasks and show that CFG and variational distribution guidance represent distinct aspects in gradient guidance and are both imperative domains for the enhancement of texture quality. Extensive experiments show our proposed model can produce 3D assets with polished surfaces and photorealistic textures, outperforming existing state-of-the-art methods.

Summary

AI-Generated Summary

PDF91November 13, 2024