GaussianAnything : Diffusion Latente Interactive de Nuages de Points pour la Génération 3D

GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

November 12, 2024
Auteurs: Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI

Résumé

Alors que la génération de contenu 3D a progressé de manière significative, les méthodes existantes rencontrent encore des défis liés aux formats d'entrée, à la conception de l'espace latent et aux représentations de sortie. Cet article présente un nouveau cadre de génération 3D qui aborde ces défis, offrant une génération 3D évolutive et de haute qualité avec un espace latent structuré en nuage de points interactif. Notre cadre utilise un Autoencodeur Variationnel (VAE) avec des rendus RGB-D(epth)-N(ormal) multi-vues posés en entrée, en utilisant une conception d'espace latent unique qui préserve les informations de forme 3D, et intègre un modèle de diffusion latent en cascade pour une meilleure disentanglement forme-texture. La méthode proposée, GaussianAnything, prend en charge la génération 3D conditionnelle multimodale, permettant des entrées de nuage de points, de légende et d'images à vue unique/multi-vues. Notamment, le nouvel espace latent proposé permet naturellement le disentanglement géométrie-texture, permettant ainsi une édition consciente de la 3D. Les résultats expérimentaux démontrent l'efficacité de notre approche sur plusieurs ensembles de données, surpassant les méthodes existantes à la fois en génération 3D conditionnée par du texte et des images.
English
While 3D content generation has advanced significantly, existing methods still face challenges with input formats, latent space design, and output representations. This paper introduces a novel 3D generation framework that addresses these challenges, offering scalable, high-quality 3D generation with an interactive Point Cloud-structured Latent space. Our framework employs a Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal) renderings as input, using a unique latent space design that preserves 3D shape information, and incorporates a cascaded latent diffusion model for improved shape-texture disentanglement. The proposed method, GaussianAnything, supports multi-modal conditional 3D generation, allowing for point cloud, caption, and single/multi-view image inputs. Notably, the newly proposed latent space naturally enables geometry-texture disentanglement, thus allowing 3D-aware editing. Experimental results demonstrate the effectiveness of our approach on multiple datasets, outperforming existing methods in both text- and image-conditioned 3D generation.

Summary

AI-Generated Summary

PDF216November 18, 2024