Fast3R: Naar 3D-reconstructie van 1000+ afbeeldingen in één voorwaartse doorgang
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
January 23, 2025
Auteurs: Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli
cs.AI
Samenvatting
Multi-view 3D-reconstructie blijft een kernuitdaging in computervisie, met name in toepassingen die nauwkeurige en schaalbare representaties vereisen vanuit diverse perspectieven. Huidige toonaangevende methoden zoals DUSt3R maken gebruik van een fundamenteel paarsgewijze benadering, waarbij afbeeldingen paar voor paar worden verwerkt en kostbare globale uitlijningsprocedures nodig zijn om te reconstrueren vanuit meerdere weergaven. In dit werk stellen we Fast 3D-reconstructie (Fast3R) voor, een nieuwe multi-view generalisatie van DUSt3R die efficiënte en schaalbare 3D-reconstructie bereikt door vele weergaven parallel te verwerken. De op Transformer gebaseerde architectuur van Fast3R stuurt N afbeeldingen door in een enkele voorwaartse stap, waardoor de noodzaak voor iteratieve uitlijning wordt omzeild. Door uitgebreide experimenten op camerapositieschatting en 3D-reconstructie toont Fast3R state-of-the-art prestaties, met aanzienlijke verbeteringen in inferentiesnelheid en verminderde foutenaccumulatie. Deze resultaten vestigen Fast3R als een robuust alternatief voor multi-view toepassingen, met verbeterde schaalbaarheid zonder in te leveren op reconstructienauwkeurigheid.
English
Multi-view 3D reconstruction remains a core challenge in computer vision,
particularly in applications requiring accurate and scalable representations
across diverse perspectives. Current leading methods such as DUSt3R employ a
fundamentally pairwise approach, processing images in pairs and necessitating
costly global alignment procedures to reconstruct from multiple views. In this
work, we propose Fast 3D Reconstruction (Fast3R), a novel multi-view
generalization to DUSt3R that achieves efficient and scalable 3D reconstruction
by processing many views in parallel. Fast3R's Transformer-based architecture
forwards N images in a single forward pass, bypassing the need for iterative
alignment. Through extensive experiments on camera pose estimation and 3D
reconstruction, Fast3R demonstrates state-of-the-art performance, with
significant improvements in inference speed and reduced error accumulation.
These results establish Fast3R as a robust alternative for multi-view
applications, offering enhanced scalability without compromising reconstruction
accuracy.Summary
AI-Generated Summary