DiffSplat: Hergebruik van Beeldverspreidingsmodellen voor Schaalbare Gaussische Splatgeneratie
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation
January 28, 2025
Auteurs: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
cs.AI
Samenvatting
Recente ontwikkelingen in 3D-contentgeneratie vanuit tekst of een enkele afbeelding hebben te kampen met beperkte hoogwaardige 3D-datasets en inconsistentie vanuit 2D multi-view generatie. We introduceren DiffSplat, een nieuw 3D generatief framework dat op een natuurlijke wijze 3D Gaussische splats genereert door grootschalige tekst-naar-afbeelding diffusiemodellen te temmen. Het onderscheidt zich van eerdere 3D generatieve modellen door effectief gebruik te maken van grootschalige 2D prior-kennis, terwijl het 3D consistentie behoudt in een verenigd model. Om het trainingsproces op gang te brengen, wordt een lichtgewicht reconstructiemodel voorgesteld om direct multi-view Gaussische splat-roosters te produceren voor schaalbare datasetcuratie. Samen met de reguliere diffusieverlies op deze roosters, wordt een 3D-renderverlies geïntroduceerd om 3D coherentie over willekeurige aanzichten te vergemakkelijken. De compatibiliteit met afbeeldingsdiffusiemodellen maakt naadloze aanpassingen van talrijke technieken voor afbeeldingsgeneratie naar het 3D domein mogelijk. Uitgebreide experimenten tonen de superioriteit van DiffSplat aan in tekst- en afbeelding-geconditioneerde generatietaken en downstream-toepassingen. Grondige ablatiestudies bevestigen de doeltreffendheid van elke kritieke ontwerpkeuze en bieden inzichten in het onderliggende mechanisme.
English
Recent advancements in 3D content generation from text or a single image
struggle with limited high-quality 3D datasets and inconsistency from 2D
multi-view generation. We introduce DiffSplat, a novel 3D generative framework
that natively generates 3D Gaussian splats by taming large-scale text-to-image
diffusion models. It differs from previous 3D generative models by effectively
utilizing web-scale 2D priors while maintaining 3D consistency in a unified
model. To bootstrap the training, a lightweight reconstruction model is
proposed to instantly produce multi-view Gaussian splat grids for scalable
dataset curation. In conjunction with the regular diffusion loss on these
grids, a 3D rendering loss is introduced to facilitate 3D coherence across
arbitrary views. The compatibility with image diffusion models enables seamless
adaptions of numerous techniques for image generation to the 3D realm.
Extensive experiments reveal the superiority of DiffSplat in text- and
image-conditioned generation tasks and downstream applications. Thorough
ablation studies validate the efficacy of each critical design choice and
provide insights into the underlying mechanism.Summary
AI-Generated Summary