LVSM: Ein großes Ansichtssynthesemodell mit minimalem 3D-induktivem Bias.
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias
October 22, 2024
Autoren: Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu
cs.AI
Zusammenfassung
Wir schlagen das Large View Synthesis Model (LVSM) vor, einen neuartigen auf Transformer basierenden Ansatz für skalierbare und generalisierbare Synthese von neuen Ansichten aus spärlichen Ansichtseingaben. Wir stellen zwei Architekturen vor: (1) einen Encoder-Decoder LVSM, der Eingabebild-Token in eine feste Anzahl von 1D-Latenz-Token kodiert, die als vollständig erlernte Szenenrepräsentation fungieren, und neue Ansichtsbilder daraus dekodiert; und (2) einen Decoder-only LVSM, der Eingabebilder direkt auf neue Ansichtsausgaben abbildet und dabei vollständig Zwischenszenenrepräsentationen eliminiert. Beide Modelle umgehen die 3D-induktiven Verzerrungen, die in früheren Methoden verwendet wurden - von 3D-Repräsentationen (z. B. NeRF, 3DGS) bis hin zu Netzwerkkonstruktionen (z. B. epipolare Projektionen, Ebenenabtastungen) - und behandeln die Synthese neuer Ansichten mit einem vollständig datengesteuerten Ansatz. Während das Encoder-Decoder-Modell aufgrund seiner unabhängigen latenten Repräsentation eine schnellere Inferenz bietet, erreicht der Decoder-only LVSM eine überlegene Qualität, Skalierbarkeit und Zero-Shot-Generalisierung und übertrifft frühere State-of-the-Art-Methoden um 1,5 bis 3,5 dB PSNR. Umfassende Bewertungen über mehrere Datensätze hinweg zeigen, dass beide LVSM-Varianten eine neuartige Synthesequalität von Ansichten aufweisen. Bemerkenswert ist, dass unsere Modelle sogar mit reduzierten Rechenressourcen (1-2 GPUs) alle früheren Methoden übertreffen. Weitere Details finden Sie auf unserer Website: https://haian-jin.github.io/projects/LVSM/
English
We propose the Large View Synthesis Model (LVSM), a novel transformer-based
approach for scalable and generalizable novel view synthesis from sparse-view
inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which
encodes input image tokens into a fixed number of 1D latent tokens, functioning
as a fully learned scene representation, and decodes novel-view images from
them; and (2) a decoder-only LVSM, which directly maps input images to
novel-view outputs, completely eliminating intermediate scene representations.
Both models bypass the 3D inductive biases used in previous methods -- from 3D
representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar
projections, plane sweeps) -- addressing novel view synthesis with a fully
data-driven approach. While the encoder-decoder model offers faster inference
due to its independent latent representation, the decoder-only LVSM achieves
superior quality, scalability, and zero-shot generalization, outperforming
previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive
evaluations across multiple datasets demonstrate that both LVSM variants
achieve state-of-the-art novel view synthesis quality. Notably, our models
surpass all previous methods even with reduced computational resources (1-2
GPUs). Please see our website for more details:
https://haian-jin.github.io/projects/LVSM/ .Summary
AI-Generated Summary