GaussianAnything: Interactieve Puntwolk Latente Diffusie voor 3D Generatie
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
November 12, 2024
Auteurs: Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI
Samenvatting
Hoewel 3D-inhoudsgeneratie aanzienlijk is gevorderd, hebben bestaande methoden nog steeds te maken met uitdagingen met invoerformaten, latent ruimteontwerp en uitvoerrepresentaties. Dit artikel introduceert een nieuw 3D-generatiekader dat deze uitdagingen aanpakt, met schaalbare, hoogwaardige 3D-generatie met een interactieve puntwolk-gestructureerde Latente ruimte. Ons kader maakt gebruik van een Variational Autoencoder (VAE) met multi-view geposeerde RGB-D(epth)-N(ormal) renderingen als invoer, waarbij een uniek latent ruimteontwerp wordt gebruikt dat 3D-vorminformatie behoudt, en een gecascadeerd latent diffusiemodel opneemt voor verbeterde vorm-textuurontkoppeling. De voorgestelde methode, GaussianAnything, ondersteunt multimodale conditionele 3D-generatie, waardoor puntwolk-, bijschrift- en enkel-/multi-view afbeeldingsinvoer mogelijk is. Opmerkelijk maakt de nieuw voorgestelde latente ruimte geometrie-textuurontkoppeling mogelijk, waardoor 3D-bewerking mogelijk is. Experimentele resultaten tonen de effectiviteit van onze aanpak aan op meerdere datasets, waarbij bestaande methoden worden overtroffen in zowel tekst- als afbeeldingsgeconditioneerde 3D-generatie.
English
While 3D content generation has advanced significantly, existing methods
still face challenges with input formats, latent space design, and output
representations. This paper introduces a novel 3D generation framework that
addresses these challenges, offering scalable, high-quality 3D generation with
an interactive Point Cloud-structured Latent space. Our framework employs a
Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal)
renderings as input, using a unique latent space design that preserves 3D shape
information, and incorporates a cascaded latent diffusion model for improved
shape-texture disentanglement. The proposed method, GaussianAnything, supports
multi-modal conditional 3D generation, allowing for point cloud, caption, and
single/multi-view image inputs. Notably, the newly proposed latent space
naturally enables geometry-texture disentanglement, thus allowing 3D-aware
editing. Experimental results demonstrate the effectiveness of our approach on
multiple datasets, outperforming existing methods in both text- and
image-conditioned 3D generation.Summary
AI-Generated Summary