가우시안애니씽: 3D 생성을 위한 대화형 포인트 클라우드 잠재 확산

GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

November 12, 2024
저자: Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy
cs.AI

초록

3D 콘텐츠 생성 기술은 상당히 발전했지만, 기존 방법은 여전히 입력 형식, 잠재 공간 디자인 및 출력 표현과 관련된 문제에 직면하고 있습니다. 본 논문은 이러한 문제를 해결하는 혁신적인 3D 생성 프레임워크를 제안하며, 상호작용 가능한 포인트 클라우드 구조의 잠재 공간을 활용하여 확장 가능하고 고품질의 3D 생성을 제공합니다. 저희 프레임워크는 Variational Autoencoder (VAE)를 사용하며, 다중 뷰 포즈된 RGB-D(깊이)-N(노멀) 렌더링을 입력으로 사용하여 3D 모양 정보를 보존하는 독특한 잠재 공간 디자인을 채택하고, 개선된 모양-질감 분리를 위해 연쇄 잠재 확산 모델을 통합합니다. 제안된 방법인 GaussianAnything은 다중 모달 조건부 3D 생성을 지원하며, 포인트 클라우드, 캡션, 그리고 단일/다중 뷰 이미지 입력이 가능합니다. 특히, 새롭게 제안된 잠재 공간은 기하학-질감 분리를 자연스럽게 가능케 하여 3D를 인식한 편집을 허용합니다. 실험 결과는 저희 방법이 다중 데이터셋에서 효과적임을 입증하며, 텍스트 및 이미지 조건부 3D 생성에서 기존 방법을 능가함을 보여줍니다.
English
While 3D content generation has advanced significantly, existing methods still face challenges with input formats, latent space design, and output representations. This paper introduces a novel 3D generation framework that addresses these challenges, offering scalable, high-quality 3D generation with an interactive Point Cloud-structured Latent space. Our framework employs a Variational Autoencoder (VAE) with multi-view posed RGB-D(epth)-N(ormal) renderings as input, using a unique latent space design that preserves 3D shape information, and incorporates a cascaded latent diffusion model for improved shape-texture disentanglement. The proposed method, GaussianAnything, supports multi-modal conditional 3D generation, allowing for point cloud, caption, and single/multi-view image inputs. Notably, the newly proposed latent space naturally enables geometry-texture disentanglement, thus allowing 3D-aware editing. Experimental results demonstrate the effectiveness of our approach on multiple datasets, outperforming existing methods in both text- and image-conditioned 3D generation.

Summary

AI-Generated Summary

PDF216November 18, 2024