LVSM : Un modèle de synthèse de grande vue avec un minimum de biais inductif en 3D
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias
October 22, 2024
Auteurs: Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu
cs.AI
Résumé
Nous proposons le Modèle de Synthèse de Grandes Vues (LVSM), une approche novatrice basée sur les transformers pour une synthèse de nouvelles vues évolutive et généralisable à partir d'entrées de vues clairsemées. Nous introduisons deux architectures : (1) un LVSM encodeur-décodeur, qui encode les jetons d'image d'entrée en un nombre fixe de jetons latents 1D, fonctionnant comme une représentation de scène entièrement apprise, et décode les images de nouvelles vues à partir de ceux-ci ; et (2) un LVSM décodeur uniquement, qui mappe directement les images d'entrée vers des sorties de nouvelles vues, éliminant complètement les représentations de scène intermédiaires. Les deux modèles contournent les biais inductifs 3D utilisés dans les méthodes précédentes -- des représentations 3D (par ex., NeRF, 3DGS) aux conceptions de réseaux (par ex., projections épipolaires, balayages de plans) -- en abordant la synthèse de nouvelles vues avec une approche entièrement basée sur les données. Alors que le modèle encodeur-décodeur offre une inférence plus rapide en raison de sa représentation latente indépendante, le LVSM décodeur uniquement atteint une qualité, une évolutivité et une généralisation hors échantillon supérieures, surpassant les méthodes précédentes de pointe de 1,5 à 3,5 dB PSNR. Des évaluations approfondies sur plusieurs ensembles de données démontrent que les deux variantes de LVSM atteignent une qualité de synthèse de nouvelles vues de pointe. Notamment, nos modèles surpassent toutes les méthodes précédentes même avec des ressources computationnelles réduites (1-2 GPUs). Veuillez consulter notre site Web pour plus de détails : https://haian-jin.github.io/projects/LVSM/.
English
We propose the Large View Synthesis Model (LVSM), a novel transformer-based
approach for scalable and generalizable novel view synthesis from sparse-view
inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which
encodes input image tokens into a fixed number of 1D latent tokens, functioning
as a fully learned scene representation, and decodes novel-view images from
them; and (2) a decoder-only LVSM, which directly maps input images to
novel-view outputs, completely eliminating intermediate scene representations.
Both models bypass the 3D inductive biases used in previous methods -- from 3D
representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar
projections, plane sweeps) -- addressing novel view synthesis with a fully
data-driven approach. While the encoder-decoder model offers faster inference
due to its independent latent representation, the decoder-only LVSM achieves
superior quality, scalability, and zero-shot generalization, outperforming
previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive
evaluations across multiple datasets demonstrate that both LVSM variants
achieve state-of-the-art novel view synthesis quality. Notably, our models
surpass all previous methods even with reduced computational resources (1-2
GPUs). Please see our website for more details:
https://haian-jin.github.io/projects/LVSM/ .Summary
AI-Generated Summary