DiffSplat: Hergebruik van Beeldverspreidingsmodellen voor Schaalbare Gaussische Splatgeneratie

Samenvatting

Recente ontwikkelingen in 3D-contentgeneratie vanuit tekst of een enkele afbeelding hebben te kampen met beperkte hoogwaardige 3D-datasets en inconsistentie vanuit 2D multi-view generatie. We introduceren DiffSplat, een nieuw 3D generatief framework dat op een natuurlijke wijze 3D Gaussische splats genereert door grootschalige tekst-naar-afbeelding diffusiemodellen te temmen. Het onderscheidt zich van eerdere 3D generatieve modellen door effectief gebruik te maken van grootschalige 2D prior-kennis, terwijl het 3D consistentie behoudt in een verenigd model. Om het trainingsproces op gang te brengen, wordt een lichtgewicht reconstructiemodel voorgesteld om direct multi-view Gaussische splat-roosters te produceren voor schaalbare datasetcuratie. Samen met de reguliere diffusieverlies op deze roosters, wordt een 3D-renderverlies geïntroduceerd om 3D coherentie over willekeurige aanzichten te vergemakkelijken. De compatibiliteit met afbeeldingsdiffusiemodellen maakt naadloze aanpassingen van talrijke technieken voor afbeeldingsgeneratie naar het 3D domein mogelijk. Uitgebreide experimenten tonen de superioriteit van DiffSplat aan in tekst- en afbeelding-geconditioneerde generatietaken en downstream-toepassingen. Grondige ablatiestudies bevestigen de doeltreffendheid van elke kritieke ontwerpkeuze en bieden inzichten in het onderliggende mechanisme.

English

Recent advancements in 3D content generation from text or a single image struggle with limited high-quality 3D datasets and inconsistency from 2D multi-view generation. We introduce DiffSplat, a novel 3D generative framework that natively generates 3D Gaussian splats by taming large-scale text-to-image diffusion models. It differs from previous 3D generative models by effectively utilizing web-scale 2D priors while maintaining 3D consistency in a unified model. To bootstrap the training, a lightweight reconstruction model is proposed to instantly produce multi-view Gaussian splat grids for scalable dataset curation. In conjunction with the regular diffusion loss on these grids, a 3D rendering loss is introduced to facilitate 3D coherence across arbitrary views. The compatibility with image diffusion models enables seamless adaptions of numerous techniques for image generation to the 3D realm. Extensive experiments reveal the superiority of DiffSplat in text- and image-conditioned generation tasks and downstream applications. Thorough ablation studies validate the efficacy of each critical design choice and provide insights into the underlying mechanism.

DiffSplat: Hergebruik van Beeldverspreidingsmodellen voor Schaalbare Gaussische Splatgeneratie

DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Samenvatting

Summary

Support