Fast3R: Naar 3D-reconstructie van 1000+ afbeeldingen in één voorwaartse doorgang

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

January 23, 2025
Auteurs: Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli
cs.AI

Samenvatting

Multi-view 3D-reconstructie blijft een kernuitdaging in computervisie, met name in toepassingen die nauwkeurige en schaalbare representaties vereisen vanuit diverse perspectieven. Huidige toonaangevende methoden zoals DUSt3R maken gebruik van een fundamenteel paarsgewijze benadering, waarbij afbeeldingen paar voor paar worden verwerkt en kostbare globale uitlijningsprocedures nodig zijn om te reconstrueren vanuit meerdere weergaven. In dit werk stellen we Fast 3D-reconstructie (Fast3R) voor, een nieuwe multi-view generalisatie van DUSt3R die efficiënte en schaalbare 3D-reconstructie bereikt door vele weergaven parallel te verwerken. De op Transformer gebaseerde architectuur van Fast3R stuurt N afbeeldingen door in een enkele voorwaartse stap, waardoor de noodzaak voor iteratieve uitlijning wordt omzeild. Door uitgebreide experimenten op camerapositieschatting en 3D-reconstructie toont Fast3R state-of-the-art prestaties, met aanzienlijke verbeteringen in inferentiesnelheid en verminderde foutenaccumulatie. Deze resultaten vestigen Fast3R als een robuust alternatief voor multi-view toepassingen, met verbeterde schaalbaarheid zonder in te leveren op reconstructienauwkeurigheid.
English
Multi-view 3D reconstruction remains a core challenge in computer vision, particularly in applications requiring accurate and scalable representations across diverse perspectives. Current leading methods such as DUSt3R employ a fundamentally pairwise approach, processing images in pairs and necessitating costly global alignment procedures to reconstruct from multiple views. In this work, we propose Fast 3D Reconstruction (Fast3R), a novel multi-view generalization to DUSt3R that achieves efficient and scalable 3D reconstruction by processing many views in parallel. Fast3R's Transformer-based architecture forwards N images in a single forward pass, bypassing the need for iterative alignment. Through extensive experiments on camera pose estimation and 3D reconstruction, Fast3R demonstrates state-of-the-art performance, with significant improvements in inference speed and reduced error accumulation. These results establish Fast3R as a robust alternative for multi-view applications, offering enhanced scalability without compromising reconstruction accuracy.

Summary

AI-Generated Summary

PDF143January 24, 2025