Lange-LRM: Model voor Grote Reconstructie van Lange Sequenties voor Brede Dekking van Gaussische Vlekken

Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

October 16, 2024
Auteurs: Chen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu
cs.AI

Samenvatting

Wij stellen Long-LRM voor, een generaliseerbaar 3D Gaussisch reconstructiemodel dat in staat is om een grote scène te reconstrueren uit een lange reeks invoerbeelden. Specifiek kan ons model 32 bronbeelden verwerken met een resolutie van 960x540 binnen slechts 1,3 seconden op een enkele A100 80G GPU. Onze architectuur bevat een mix van de recente Mamba2-blokken en de klassieke transformer-blokken die het mogelijk maken om veel meer tokens te verwerken dan eerdere werken, verbeterd door efficiënte token-samenvoeging en Gaussische snoeistappen die balanceren tussen kwaliteit en efficiëntie. In tegenstelling tot eerdere feedforward-modellen die beperkt zijn tot het verwerken van 1-4 invoerbeelden en slechts een klein deel van een grote scène kunnen reconstrueren, reconstrueert Long-LRM de volledige scène in één enkele feedforward-stap. Op grootschalige scènedatasets zoals DL3DV-140 en Tanks and Temples behaalt onze methode prestaties vergelijkbaar met op optimalisatie gebaseerde benaderingen, terwijl ze twee ordes van grootte efficiënter is. Projectpagina: https://arthurhero.github.io/projects/llrm
English
We propose Long-LRM, a generalizable 3D Gaussian reconstruction model that is capable of reconstructing a large scene from a long sequence of input images. Specifically, our model can process 32 source images at 960x540 resolution within only 1.3 seconds on a single A100 80G GPU. Our architecture features a mixture of the recent Mamba2 blocks and the classical transformer blocks which allowed many more tokens to be processed than prior work, enhanced by efficient token merging and Gaussian pruning steps that balance between quality and efficiency. Unlike previous feed-forward models that are limited to processing 1~4 input images and can only reconstruct a small portion of a large scene, Long-LRM reconstructs the entire scene in a single feed-forward step. On large-scale scene datasets such as DL3DV-140 and Tanks and Temples, our method achieves performance comparable to optimization-based approaches while being two orders of magnitude more efficient. Project page: https://arthurhero.github.io/projects/llrm

Summary

AI-Generated Summary

PDF52November 16, 2024