TraumPolish: Domänen-Score-Verdichtung mit progressiver Geometrie-Generierung
DreamPolish: Domain Score Distillation With Progressive Geometry Generation
November 3, 2024
Autoren: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi
cs.AI
Zusammenfassung
Wir stellen DreamPolish vor, ein Text-zu-3D-Generierungsmodell, das sich durch die Erzeugung raffinierter Geometrie und hochwertiger Texturen auszeichnet. In der Geometriekonstruktionsphase nutzt unser Ansatz mehrere neuronale Repräsentationen, um die Stabilität des Syntheseprozesses zu verbessern. Anstatt sich ausschließlich auf eine ansichtskonditionierte Diffusionspriorität in den neuartig abgetasteten Ansichten zu verlassen, die oft zu unerwünschten Artefakten auf der geometrischen Oberfläche führt, integrieren wir einen zusätzlichen Normalenschätzer, um die Geometriedetails zu verfeinern, abhängig von Blickwinkeln mit unterschiedlichen Sichtfeldern. Wir schlagen vor, eine Oberflächenpolierungsstufe mit nur wenigen Trainingsschritten hinzuzufügen, die effektiv die Artefakte verfeinert, die auf eine begrenzte Anleitung aus früheren Phasen zurückzuführen sind, und 3D-Objekte mit wünschenswerterer Geometrie zu erzeugen. Das Hauptthema der Texturerzeugung unter Verwendung von vorab trainierten Text-zu-Bild-Modellen besteht darin, eine geeignete Domäne in der umfangreichen latenten Verteilung dieser Modelle zu finden, die fotorealistische und konsistente Darstellungen enthält. In der Texturerzeugungsphase führen wir ein neuartiges Score-Destillationsziel ein, nämlich die Domänenscore-Destillation (DSD), um neuronale Repräsentationen in Richtung einer solchen Domäne zu lenken. Wir lassen uns von der klassifiziererfreien Anleitung (CFG) bei textkonditionierten Bildgenerierungsaufgaben inspirieren und zeigen, dass CFG und Anleitung durch variational Distribution unterschiedliche Aspekte in der Gradientenanleitung darstellen und beide entscheidende Domänen für die Verbesserung der Texturqualität sind. Umfangreiche Experimente zeigen, dass unser vorgeschlagenes Modell 3D-Assets mit polierten Oberflächen und fotorealistischen Texturen erzeugen kann und dabei bestehende State-of-the-Art-Methoden übertrifft.
English
We introduce DreamPolish, a text-to-3D generation model that excels in
producing refined geometry and high-quality textures. In the geometry
construction phase, our approach leverages multiple neural representations to
enhance the stability of the synthesis process. Instead of relying solely on a
view-conditioned diffusion prior in the novel sampled views, which often leads
to undesired artifacts in the geometric surface, we incorporate an additional
normal estimator to polish the geometry details, conditioned on viewpoints with
varying field-of-views. We propose to add a surface polishing stage with only a
few training steps, which can effectively refine the artifacts attributed to
limited guidance from previous stages and produce 3D objects with more
desirable geometry. The key topic of texture generation using pretrained
text-to-image models is to find a suitable domain in the vast latent
distribution of these models that contains photorealistic and consistent
renderings. In the texture generation phase, we introduce a novel score
distillation objective, namely domain score distillation (DSD), to guide neural
representations toward such a domain. We draw inspiration from the
classifier-free guidance (CFG) in textconditioned image generation tasks and
show that CFG and variational distribution guidance represent distinct aspects
in gradient guidance and are both imperative domains for the enhancement of
texture quality. Extensive experiments show our proposed model can produce 3D
assets with polished surfaces and photorealistic textures, outperforming
existing state-of-the-art methods.Summary
AI-Generated Summary