LVSM: 최소 3D 귀납 편향을 갖춘 대규모 뷰 합성 모델
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias
October 22, 2024
저자: Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu
cs.AI
초록
우리는 Large View Synthesis Model (LVSM)을 제안합니다. 이는 희소한 시야 입력으로부터 확장 가능하고 일반화된 신기한 시야 합성을 위한 혁신적인 트랜스포머 기반 접근 방식입니다. 우리는 두 가지 아키텍처를 소개합니다: (1) 인코더-디코더 LVSM은 입력 이미지 토큰을 고정된 수의 1차원 잠재 토큰으로 인코딩하여 완전히 학습된 장면 표현으로 작용하며 이를 통해 신기한 시야 이미지를 디코딩합니다. (2) 디코더 전용 LVSM은 입력 이미지를 직접 신기한 시야 출력으로 매핑하여 중간 장면 표현을 완전히 제거합니다. 두 모델 모두 이전 방법에서 사용된 3D 귀납적 편향을 우회합니다 - 3D 표현(예: NeRF, 3DGS)에서 네트워크 설계(예: 에피폴라 투영, 평면 스위핑)로 - 완전히 데이터 주도적인 접근 방식으로 신기한 시야 합성을 다룹니다. 인코더-디코더 모델은 독립적인 잠재 표현으로 인해 빠른 추론을 제공하지만, 디코더 전용 LVSM은 우수한 품질, 확장성 및 제로샷 일반화를 달성하여 이전 최첨단 방법을 1.5에서 3.5 dB PSNR로 능가합니다. 다양한 데이터셋을 통한 포괄적인 평가는 두 LVSM 변형 모두 최첨단 신기한 시야 합성 품질을 달성함을 보여줍니다. 특히, 우리 모델은 모든 이전 방법을 능가하며 심지어 줄어든 계산 자원(1-2 GPU)으로도 성과를 거두었습니다. 더 많은 세부 정보는 저희 웹사이트를 참조해주십시오: https://haian-jin.github.io/projects/LVSM/ .
English
We propose the Large View Synthesis Model (LVSM), a novel transformer-based
approach for scalable and generalizable novel view synthesis from sparse-view
inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which
encodes input image tokens into a fixed number of 1D latent tokens, functioning
as a fully learned scene representation, and decodes novel-view images from
them; and (2) a decoder-only LVSM, which directly maps input images to
novel-view outputs, completely eliminating intermediate scene representations.
Both models bypass the 3D inductive biases used in previous methods -- from 3D
representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar
projections, plane sweeps) -- addressing novel view synthesis with a fully
data-driven approach. While the encoder-decoder model offers faster inference
due to its independent latent representation, the decoder-only LVSM achieves
superior quality, scalability, and zero-shot generalization, outperforming
previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive
evaluations across multiple datasets demonstrate that both LVSM variants
achieve state-of-the-art novel view synthesis quality. Notably, our models
surpass all previous methods even with reduced computational resources (1-2
GPUs). Please see our website for more details:
https://haian-jin.github.io/projects/LVSM/ .Summary
AI-Generated Summary