GaussianAnything : Diffusion Latente Interactive de Nuages de Points pour la Génération 3D
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
November 12, 2024
Auteurs: Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI
Résumé
Alors que la génération de contenu 3D a progressé de manière significative, les méthodes existantes rencontrent encore des défis liés aux formats d'entrée, à la conception de l'espace latent et aux représentations de sortie. Cet article présente un nouveau cadre de génération 3D qui aborde ces défis, offrant une génération 3D évolutive et de haute qualité avec un espace latent structuré en nuage de points interactif. Notre cadre utilise un Autoencodeur Variationnel (VAE) avec des rendus RGB-D(epth)-N(ormal) multi-vues posés en entrée, en utilisant une conception d'espace latent unique qui préserve les informations de forme 3D, et intègre un modèle de diffusion latent en cascade pour une meilleure disentanglement forme-texture. La méthode proposée, GaussianAnything, prend en charge la génération 3D conditionnelle multimodale, permettant des entrées de nuage de points, de légende et d'images à vue unique/multi-vues. Notamment, le nouvel espace latent proposé permet naturellement le disentanglement géométrie-texture, permettant ainsi une édition consciente de la 3D. Les résultats expérimentaux démontrent l'efficacité de notre approche sur plusieurs ensembles de données, surpassant les méthodes existantes à la fois en génération 3D conditionnée par du texte et des images.
English
While 3D content generation has advanced significantly, existing methods
still face challenges with input formats, latent space design, and output
representations. This paper introduces a novel 3D generation framework that
addresses these challenges, offering scalable, high-quality 3D generation with
an interactive Point Cloud-structured Latent space. Our framework employs a
Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal)
renderings as input, using a unique latent space design that preserves 3D shape
information, and incorporates a cascaded latent diffusion model for improved
shape-texture disentanglement. The proposed method, GaussianAnything, supports
multi-modal conditional 3D generation, allowing for point cloud, caption, and
single/multi-view image inputs. Notably, the newly proposed latent space
naturally enables geometry-texture disentanglement, thus allowing 3D-aware
editing. Experimental results demonstrate the effectiveness of our approach on
multiple datasets, outperforming existing methods in both text- and
image-conditioned 3D generation.Summary
AI-Generated Summary