ChatPaper.aiChatPaper

3D-인식 2D 표현을 활용한 잠재 광도 필드

Latent Radiance Fields with 3D-aware 2D Representations

February 13, 2025
저자: Chaoyi Zhou, Xi Liu, Feng Luo, Siyu Huang
cs.AI

초록

잠재 3D 재구성은 2D 특징을 3D 공간으로 증류하여 3D 의미 이해와 3D 생성을 강화하는 데 큰 가능성을 보여주었습니다. 그러나 기존 방법은 2D 특징 공간과 3D 표현 간의 도메인 갭으로 인해 렌더링 성능이 저하되는 어려움이 있습니다. 이러한 도전에 대처하기 위해 우리는 3D 인식을 2D 잠재 공간에 통합하는 새로운 프레임워크를 제안합니다. 이 프레임워크는 세 가지 단계로 구성됩니다: (1) 2D 잠재 표현의 3D 일관성을 향상시키는 대응 인식 오토인코딩 방법, (2) 이러한 3D 인식 2D 표현을 3D 공간으로 변환하는 잠재 광도 필드(LRF), 그리고 (3) 렌더링된 2D 표현으로부터 이미지 디코딩을 개선하는 VAE-광도 필드(VAE-RF) 정렬 전략입니다. 광범위한 실험을 통해 우리의 방법이 다양한 실내 및 실외 장면에서 합성 성능과 교차 데이터셋 일반화 측면에서 최첨단 잠재 3D 재구성 방법을 능가한다는 것을 입증했습니다. 우리의 지식으로는, 이는 2D 잠재 표현에서 구성된 광도 필드 표현이 사실적인 3D 재구성 성능을 낼 수 있다는 것을 보여주는 최초의 작업입니다.
English
Latent 3D reconstruction has shown great promise in empowering 3D semantic understanding and 3D generation by distilling 2D features into the 3D space. However, existing approaches struggle with the domain gap between 2D feature space and 3D representations, resulting in degraded rendering performance. To address this challenge, we propose a novel framework that integrates 3D awareness into the 2D latent space. The framework consists of three stages: (1) a correspondence-aware autoencoding method that enhances the 3D consistency of 2D latent representations, (2) a latent radiance field (LRF) that lifts these 3D-aware 2D representations into 3D space, and (3) a VAE-Radiance Field (VAE-RF) alignment strategy that improves image decoding from the rendered 2D representations. Extensive experiments demonstrate that our method outperforms the state-of-the-art latent 3D reconstruction approaches in terms of synthesis performance and cross-dataset generalizability across diverse indoor and outdoor scenes. To our knowledge, this is the first work showing the radiance field representations constructed from 2D latent representations can yield photorealistic 3D reconstruction performance.

Summary

AI-Generated Summary

PDF62February 15, 2025