GaussianAnything: Diffusione Latente Interattiva di Point Cloud per la Generazione 3D
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
November 12, 2024
Autori: Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI
Abstract
Mentre la generazione di contenuti 3D ha fatto progressi significativi, i metodi esistenti si trovano ancora ad affrontare sfide legate ai formati di input, al design dello spazio latente e alle rappresentazioni di output. Questo articolo introduce un nuovo framework di generazione 3D che affronta tali sfide, offrendo una generazione 3D scalabile e di alta qualità con uno spazio latente strutturato a nuvola di punti interattivo. Il nostro framework utilizza un Autoencoder Variazionale (VAE) con rendering RGB-D(epth)-N(ormal) multi-vista come input, utilizzando un design unico dello spazio latente che preserva le informazioni sulla forma 3D e incorpora un modello di diffusione latente a cascata per un miglior disaccoppiamento forma-textura. Il metodo proposto, GaussianAnything, supporta la generazione 3D condizionale multimodale, consentendo input di nuvola di punti, didascalia e immagini singole/multi-vista. In particolare, il nuovo spazio latente proposto consente naturalmente il disaccoppiamento geometria-textura, consentendo così la modifica consapevole del 3D. I risultati sperimentali dimostrano l'efficacia del nostro approccio su più set di dati, superando i metodi esistenti sia nella generazione 3D condizionata al testo che all'immagine.
English
While 3D content generation has advanced significantly, existing methods
still face challenges with input formats, latent space design, and output
representations. This paper introduces a novel 3D generation framework that
addresses these challenges, offering scalable, high-quality 3D generation with
an interactive Point Cloud-structured Latent space. Our framework employs a
Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal)
renderings as input, using a unique latent space design that preserves 3D shape
information, and incorporates a cascaded latent diffusion model for improved
shape-texture disentanglement. The proposed method, GaussianAnything, supports
multi-modal conditional 3D generation, allowing for point cloud, caption, and
single/multi-view image inputs. Notably, the newly proposed latent space
naturally enables geometry-texture disentanglement, thus allowing 3D-aware
editing. Experimental results demonstrate the effectiveness of our approach on
multiple datasets, outperforming existing methods in both text- and
image-conditioned 3D generation.Summary
AI-Generated Summary