Fast3R: Auf dem Weg zur 3D-Rekonstruktion von über 1000 Bildern in einem Vorwärtsschritt
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
January 23, 2025
Autoren: Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli
cs.AI
Zusammenfassung
Die mehrblickige 3D-Rekonstruktion bleibt eine zentrale Herausforderung in der Computer Vision, insbesondere bei Anwendungen, die genaue und skalierbare Darstellungen aus verschiedenen Perspektiven erfordern. Aktuelle führende Methoden wie DUSt3R verwenden einen grundlegend paarweisen Ansatz, der Bilder paarweise verarbeitet und kostspielige globale Ausrichtungsverfahren erfordert, um aus mehreren Ansichten zu rekonstruieren. In dieser Arbeit schlagen wir Fast 3D Reconstruction (Fast3R) vor, eine neuartige mehrblickige Verallgemeinerung von DUSt3R, die durch die parallele Verarbeitung vieler Ansichten eine effiziente und skalierbare 3D-Rekonstruktion erreicht. Die auf Transformer basierende Architektur von Fast3R leitet N Bilder in einem einzigen Vorwärtspass weiter, ohne die Notwendigkeit iterativer Ausrichtung. Durch umfangreiche Experimente zur Kamerapositionsschätzung und 3D-Rekonstruktion zeigt Fast3R eine Leistung auf dem neuesten Stand der Technik mit signifikanten Verbesserungen in der Inferenzgeschwindigkeit und reduzierter Fehlerakkumulation. Diese Ergebnisse etablieren Fast3R als robuste Alternative für mehrblickige Anwendungen, die eine verbesserte Skalierbarkeit bietet, ohne die Rekonstruktionsgenauigkeit zu beeinträchtigen.
English
Multi-view 3D reconstruction remains a core challenge in computer vision,
particularly in applications requiring accurate and scalable representations
across diverse perspectives. Current leading methods such as DUSt3R employ a
fundamentally pairwise approach, processing images in pairs and necessitating
costly global alignment procedures to reconstruct from multiple views. In this
work, we propose Fast 3D Reconstruction (Fast3R), a novel multi-view
generalization to DUSt3R that achieves efficient and scalable 3D reconstruction
by processing many views in parallel. Fast3R's Transformer-based architecture
forwards N images in a single forward pass, bypassing the need for iterative
alignment. Through extensive experiments on camera pose estimation and 3D
reconstruction, Fast3R demonstrates state-of-the-art performance, with
significant improvements in inference speed and reduced error accumulation.
These results establish Fast3R as a robust alternative for multi-view
applications, offering enhanced scalability without compromising reconstruction
accuracy.Summary
AI-Generated Summary