Wavelet 잠재 확산 (Wala): 10억 개 파라미터 3D 생성 모델 밀도 있는 Wavelet 부호화와 함께
Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings
November 12, 2024
저자: Aditya Sanghi, Aliasghar Khani, Pradyumna Reddy, Arianna Rampini, Derek Cheung, Kamal Rahimi Malekshan, Kanika Madan, Hooman Shayani
cs.AI
초록
대규모 3D 생성 모델은 상당한 컴퓨팅 자원이 필요하지만 종종 고해상도에서 세밀한 세부 사항과 복잡한 기하학을 캡처하는 데 어려움을 겪습니다. 이 한계는 현재의 효율성이 부족한 표현에 기인하며, 이러한 표현은 생성 모델을 효과적으로 모델링하는 데 필요한 간결함이 부족합니다. 이를 해결하기 위해 Wavelet Latent Diffusion 또는 WaLa라는 새로운 접근 방식을 소개합니다. 이 방법은 3D 모양을 웨이블릿 기반의 간결한 잠재 부호로 인코딩합니다. 구체적으로 256^3 부호 거리 필드를 12^3 곱하기 4의 잠재 그리드로 압축하여 세부 사항의 손실이 최소화되는 상태에서 인상적인 2427배의 압축 비율을 달성합니다. 이 높은 압축 수준으로 인해 우리의 방법은 추론 시간을 증가시키지 않고 대규모 생성 네트워크를 효율적으로 훈련할 수 있습니다. 우리의 모델은 조건부 및 무조건적으로 약 10억 개의 매개변수를 포함하며, 256^3 해상도에서 고품질 3D 모양을 성공적으로 생성합니다. 또한 WaLa는 모델의 규모에도 불구하고 조건에 따라 2~4초 내에 모양을 생성하는 빠른 추론을 제공합니다. 우리는 다양한 데이터셋에서 최신 성능을 보여주며, 생성 품질, 다양성 및 계산 효율성에서 상당한 개선을 이루어냅니다. 우리는 코드를 오픈 소스로 공개하고, 우리의 지식 범위 내에서 다양한 모달리티에 걸쳐 가장 큰 사전 훈련된 3D 생성 모델을 공개합니다.
English
Large-scale 3D generative models require substantial computational resources
yet often fall short in capturing fine details and complex geometries at high
resolutions. We attribute this limitation to the inefficiency of current
representations, which lack the compactness required to model the generative
models effectively. To address this, we introduce a novel approach called
Wavelet Latent Diffusion, or WaLa, that encodes 3D shapes into wavelet-based,
compact latent encodings. Specifically, we compress a 256^3 signed distance
field into a 12^3 times 4 latent grid, achieving an impressive 2427x
compression ratio with minimal loss of detail. This high level of compression
allows our method to efficiently train large-scale generative networks without
increasing the inference time. Our models, both conditional and unconditional,
contain approximately one billion parameters and successfully generate
high-quality 3D shapes at 256^3 resolution. Moreover, WaLa offers rapid
inference, producing shapes within two to four seconds depending on the
condition, despite the model's scale. We demonstrate state-of-the-art
performance across multiple datasets, with significant improvements in
generation quality, diversity, and computational efficiency. We open-source our
code and, to the best of our knowledge, release the largest pretrained 3D
generative models across different modalities.Summary
AI-Generated Summary