LVSM : Un modèle de synthèse de grande vue avec un minimum de biais inductif en 3D

Résumé

Nous proposons le Modèle de Synthèse de Grandes Vues (LVSM), une approche novatrice basée sur les transformers pour une synthèse de nouvelles vues évolutive et généralisable à partir d'entrées de vues clairsemées. Nous introduisons deux architectures : (1) un LVSM encodeur-décodeur, qui encode les jetons d'image d'entrée en un nombre fixe de jetons latents 1D, fonctionnant comme une représentation de scène entièrement apprise, et décode les images de nouvelles vues à partir de ceux-ci ; et (2) un LVSM décodeur uniquement, qui mappe directement les images d'entrée vers des sorties de nouvelles vues, éliminant complètement les représentations de scène intermédiaires. Les deux modèles contournent les biais inductifs 3D utilisés dans les méthodes précédentes -- des représentations 3D (par ex., NeRF, 3DGS) aux conceptions de réseaux (par ex., projections épipolaires, balayages de plans) -- en abordant la synthèse de nouvelles vues avec une approche entièrement basée sur les données. Alors que le modèle encodeur-décodeur offre une inférence plus rapide en raison de sa représentation latente indépendante, le LVSM décodeur uniquement atteint une qualité, une évolutivité et une généralisation hors échantillon supérieures, surpassant les méthodes précédentes de pointe de 1,5 à 3,5 dB PSNR. Des évaluations approfondies sur plusieurs ensembles de données démontrent que les deux variantes de LVSM atteignent une qualité de synthèse de nouvelles vues de pointe. Notamment, nos modèles surpassent toutes les méthodes précédentes même avec des ressources computationnelles réduites (1-2 GPUs). Veuillez consulter notre site Web pour plus de détails : https://haian-jin.github.io/projects/LVSM/.

English

We propose the Large View Synthesis Model (LVSM), a novel transformer-based approach for scalable and generalizable novel view synthesis from sparse-view inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which encodes input image tokens into a fixed number of 1D latent tokens, functioning as a fully learned scene representation, and decodes novel-view images from them; and (2) a decoder-only LVSM, which directly maps input images to novel-view outputs, completely eliminating intermediate scene representations. Both models bypass the 3D inductive biases used in previous methods -- from 3D representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar projections, plane sweeps) -- addressing novel view synthesis with a fully data-driven approach. While the encoder-decoder model offers faster inference due to its independent latent representation, the decoder-only LVSM achieves superior quality, scalability, and zero-shot generalization, outperforming previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive evaluations across multiple datasets demonstrate that both LVSM variants achieve state-of-the-art novel view synthesis quality. Notably, our models surpass all previous methods even with reduced computational resources (1-2 GPUs). Please see our website for more details: https://haian-jin.github.io/projects/LVSM/ .

LVSM : Un modèle de synthèse de grande vue avec un minimum de biais inductif en 3D

LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

Résumé

Summary

Support