LVSM: Ein großes Ansichtssynthesemodell mit minimalem 3D-induktivem Bias.

Zusammenfassung

Wir schlagen das Large View Synthesis Model (LVSM) vor, einen neuartigen auf Transformer basierenden Ansatz für skalierbare und generalisierbare Synthese von neuen Ansichten aus spärlichen Ansichtseingaben. Wir stellen zwei Architekturen vor: (1) einen Encoder-Decoder LVSM, der Eingabebild-Token in eine feste Anzahl von 1D-Latenz-Token kodiert, die als vollständig erlernte Szenenrepräsentation fungieren, und neue Ansichtsbilder daraus dekodiert; und (2) einen Decoder-only LVSM, der Eingabebilder direkt auf neue Ansichtsausgaben abbildet und dabei vollständig Zwischenszenenrepräsentationen eliminiert. Beide Modelle umgehen die 3D-induktiven Verzerrungen, die in früheren Methoden verwendet wurden - von 3D-Repräsentationen (z. B. NeRF, 3DGS) bis hin zu Netzwerkkonstruktionen (z. B. epipolare Projektionen, Ebenenabtastungen) - und behandeln die Synthese neuer Ansichten mit einem vollständig datengesteuerten Ansatz. Während das Encoder-Decoder-Modell aufgrund seiner unabhängigen latenten Repräsentation eine schnellere Inferenz bietet, erreicht der Decoder-only LVSM eine überlegene Qualität, Skalierbarkeit und Zero-Shot-Generalisierung und übertrifft frühere State-of-the-Art-Methoden um 1,5 bis 3,5 dB PSNR. Umfassende Bewertungen über mehrere Datensätze hinweg zeigen, dass beide LVSM-Varianten eine neuartige Synthesequalität von Ansichten aufweisen. Bemerkenswert ist, dass unsere Modelle sogar mit reduzierten Rechenressourcen (1-2 GPUs) alle früheren Methoden übertreffen. Weitere Details finden Sie auf unserer Website: https://haian-jin.github.io/projects/LVSM/

English

We propose the Large View Synthesis Model (LVSM), a novel transformer-based approach for scalable and generalizable novel view synthesis from sparse-view inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which encodes input image tokens into a fixed number of 1D latent tokens, functioning as a fully learned scene representation, and decodes novel-view images from them; and (2) a decoder-only LVSM, which directly maps input images to novel-view outputs, completely eliminating intermediate scene representations. Both models bypass the 3D inductive biases used in previous methods -- from 3D representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar projections, plane sweeps) -- addressing novel view synthesis with a fully data-driven approach. While the encoder-decoder model offers faster inference due to its independent latent representation, the decoder-only LVSM achieves superior quality, scalability, and zero-shot generalization, outperforming previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive evaluations across multiple datasets demonstrate that both LVSM variants achieve state-of-the-art novel view synthesis quality. Notably, our models surpass all previous methods even with reduced computational resources (1-2 GPUs). Please see our website for more details: https://haian-jin.github.io/projects/LVSM/ .

LVSM: Ein großes Ansichtssynthesemodell mit minimalem 3D-induktivem Bias.

LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

Zusammenfassung

Support