GaussianAnything: Diffusione Latente Interattiva di Point Cloud per la Generazione 3D

Abstract

Mentre la generazione di contenuti 3D ha fatto progressi significativi, i metodi esistenti si trovano ancora ad affrontare sfide legate ai formati di input, al design dello spazio latente e alle rappresentazioni di output. Questo articolo introduce un nuovo framework di generazione 3D che affronta tali sfide, offrendo una generazione 3D scalabile e di alta qualità con uno spazio latente strutturato a nuvola di punti interattivo. Il nostro framework utilizza un Autoencoder Variazionale (VAE) con rendering RGB-D(epth)-N(ormal) multi-vista come input, utilizzando un design unico dello spazio latente che preserva le informazioni sulla forma 3D e incorpora un modello di diffusione latente a cascata per un miglior disaccoppiamento forma-textura. Il metodo proposto, GaussianAnything, supporta la generazione 3D condizionale multimodale, consentendo input di nuvola di punti, didascalia e immagini singole/multi-vista. In particolare, il nuovo spazio latente proposto consente naturalmente il disaccoppiamento geometria-textura, consentendo così la modifica consapevole del 3D. I risultati sperimentali dimostrano l'efficacia del nostro approccio su più set di dati, superando i metodi esistenti sia nella generazione 3D condizionata al testo che all'immagine.

English

While 3D content generation has advanced significantly, existing methods still face challenges with input formats, latent space design, and output representations. This paper introduces a novel 3D generation framework that addresses these challenges, offering scalable, high-quality 3D generation with an interactive Point Cloud-structured Latent space. Our framework employs a Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal) renderings as input, using a unique latent space design that preserves 3D shape information, and incorporates a cascaded latent diffusion model for improved shape-texture disentanglement. The proposed method, GaussianAnything, supports multi-modal conditional 3D generation, allowing for point cloud, caption, and single/multi-view image inputs. Notably, the newly proposed latent space naturally enables geometry-texture disentanglement, thus allowing 3D-aware editing. Experimental results demonstrate the effectiveness of our approach on multiple datasets, outperforming existing methods in both text- and image-conditioned 3D generation.

GaussianAnything: Diffusione Latente Interattiva di Point Cloud per la Generazione 3D

GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

Abstract

Summary

Support