DiffSplat: Umnutzung von Bildverbreitungsmodellen für die skalierbare Generierung von Gauß'schen Splat.
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation
January 28, 2025
Autoren: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei der Generierung von 3D-Inhalten aus Text oder einem einzigen Bild mit begrenzten hochwertigen 3D-Datensätzen und Inkonsistenzen bei der 2D-Mehransichtsgenerierung zu kämpfen. Wir stellen DiffSplat vor, ein neuartiges 3D-generatives Framework, das nativ 3D-Gaußsche Splats erzeugt, indem es große Text-zu-Bild-Diffusionsmodelle bändigt. Es unterscheidet sich von früheren 3D-generativen Modellen, indem es webbasierte 2D-Prioritäten effektiv nutzt und gleichzeitig 3D-Konsistenz in einem vereinheitlichten Modell beibehält. Um das Training zu starten, wird ein leichtgewichtiges Rekonstruktionsmodell vorgeschlagen, um sofort Mehransichts-Gaußsche Splat-Gitter für skalierbare Datensatzkuratierung zu erzeugen. In Verbindung mit dem regulären Diffusionsverlust auf diesen Gittern wird ein 3D-Renderingverlust eingeführt, um die 3D-Kohärenz über beliebige Ansichten hinweg zu erleichtern. Die Kompatibilität mit Bild-Diffusionsmodellen ermöglicht nahtlose Anpassungen zahlreicher Techniken für die Bildgenerierung an den 3D-Bereich. Umfangreiche Experimente zeigen die Überlegenheit von DiffSplat bei text- und bildkonditionierten Generierungsaufgaben und nachgelagerten Anwendungen. Gründliche Ablationsstudien bestätigen die Wirksamkeit jeder kritischen Designentscheidung und liefern Einblicke in den zugrunde liegenden Mechanismus.
English
Recent advancements in 3D content generation from text or a single image
struggle with limited high-quality 3D datasets and inconsistency from 2D
multi-view generation. We introduce DiffSplat, a novel 3D generative framework
that natively generates 3D Gaussian splats by taming large-scale text-to-image
diffusion models. It differs from previous 3D generative models by effectively
utilizing web-scale 2D priors while maintaining 3D consistency in a unified
model. To bootstrap the training, a lightweight reconstruction model is
proposed to instantly produce multi-view Gaussian splat grids for scalable
dataset curation. In conjunction with the regular diffusion loss on these
grids, a 3D rendering loss is introduced to facilitate 3D coherence across
arbitrary views. The compatibility with image diffusion models enables seamless
adaptions of numerous techniques for image generation to the 3D realm.
Extensive experiments reveal the superiority of DiffSplat in text- and
image-conditioned generation tasks and downstream applications. Thorough
ablation studies validate the efficacy of each critical design choice and
provide insights into the underlying mechanism.Summary
AI-Generated Summary