GaussianAnything: Interaktive Punktewolken-Latenzdiffusion für die 3D-Generierung
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
November 12, 2024
Autoren: Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI
Zusammenfassung
Obwohl die Erzeugung von 3D-Inhalten erhebliche Fortschritte gemacht hat, stehen bestehende Methoden immer noch vor Herausforderungen bei Eingabeformaten, dem latenten Raumdesign und Ausgaberepräsentationen. Dieses Paper stellt ein neuartiges 3D-Generierungs-Framework vor, das diese Herausforderungen angeht und skalierbare, hochwertige 3D-Generierung mit einem interaktiven Punktewolken-strukturierten Latenten Raum bietet. Unser Framework verwendet einen Variationalen Autoencoder (VAE) mit mehreren Ansichten von RGB-D(epth)-N(ormal)-Renderings als Eingabe und nutzt ein einzigartiges latenten Raumdesign, das 3D-Forminformationen bewahrt, und integriert ein kaskadiertes latentes Diffusionsmodell zur verbesserten Form-Textur-Entflechtung. Die vorgeschlagene Methode, GaussianAnything, unterstützt multimodale bedingte 3D-Generierung, was Punktewolke, Bildunterschrift und Einzel-/Mehr-Ansicht-Bildeingaben ermöglicht. Bemerkenswert ermöglicht der neu vorgeschlagene latente Raum eine natürliche Geometrie-Textur-Entflechtung und erlaubt somit 3D-bewusstes Bearbeiten. Experimentelle Ergebnisse zeigen die Wirksamkeit unseres Ansatzes auf mehreren Datensätzen und übertreffen bestehende Methoden sowohl in text- als auch bildbedingter 3D-Generierung.
English
While 3D content generation has advanced significantly, existing methods
still face challenges with input formats, latent space design, and output
representations. This paper introduces a novel 3D generation framework that
addresses these challenges, offering scalable, high-quality 3D generation with
an interactive Point Cloud-structured Latent space. Our framework employs a
Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal)
renderings as input, using a unique latent space design that preserves 3D shape
information, and incorporates a cascaded latent diffusion model for improved
shape-texture disentanglement. The proposed method, GaussianAnything, supports
multi-modal conditional 3D generation, allowing for point cloud, caption, and
single/multi-view image inputs. Notably, the newly proposed latent space
naturally enables geometry-texture disentanglement, thus allowing 3D-aware
editing. Experimental results demonstrate the effectiveness of our approach on
multiple datasets, outperforming existing methods in both text- and
image-conditioned 3D generation.Summary
AI-Generated Summary