Fast3R: 하나의 Forward Pass에서 1000개 이상의 이미지의 3D 재구성을 향하여
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
January 23, 2025
저자: Jianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli
cs.AI
초록
다중 뷰 3D 재구성은 컴퓨터 비전에서 핵심적인 과제로 남아 있으며, 특히 다양한 관점에서 정확하고 확장 가능한 표현이 필요한 응용 프로그램에서 그 중요성이 부각됩니다. DUSt3R과 같은 현재 주요 방법은 기본적으로 쌍으로 이미지를 처리하고 여러 뷰에서 재구성하기 위해 비용이 많이 드는 전역 정렬 절차가 필요한 방식을 채택하고 있습니다. 본 연구에서는 DUSt3R에 대한 새로운 다중 뷰 일반화인 Fast 3D Reconstruction (Fast3R)을 제안합니다. Fast3R은 여러 뷰를 병렬로 처리함으로써 효율적이고 확장 가능한 3D 재구성을 달성합니다. Fast3R의 Transformer 기반 아키텍처는 한 번의 전방향 패스에서 N개의 이미지를 전달하며 반복 정렬이 필요하지 않습니다. 카메라 포즈 추정 및 3D 재구성에 대한 광범위한 실험을 통해 Fast3R은 최첨단 성능을 보여주며 추론 속도 개선과 오류 누적 감소에 상당한 향상을 제공합니다. 이러한 결과는 Fast3R을 다중 뷰 응용 프로그램에 대한 견고한 대안으로 확립하며, 재구성 정확도를 희생하지 않고 향상된 확장성을 제공합니다.
English
Multi-view 3D reconstruction remains a core challenge in computer vision,
particularly in applications requiring accurate and scalable representations
across diverse perspectives. Current leading methods such as DUSt3R employ a
fundamentally pairwise approach, processing images in pairs and necessitating
costly global alignment procedures to reconstruct from multiple views. In this
work, we propose Fast 3D Reconstruction (Fast3R), a novel multi-view
generalization to DUSt3R that achieves efficient and scalable 3D reconstruction
by processing many views in parallel. Fast3R's Transformer-based architecture
forwards N images in a single forward pass, bypassing the need for iterative
alignment. Through extensive experiments on camera pose estimation and 3D
reconstruction, Fast3R demonstrates state-of-the-art performance, with
significant improvements in inference speed and reduced error accumulation.
These results establish Fast3R as a robust alternative for multi-view
applications, offering enhanced scalability without compromising reconstruction
accuracy.Summary
AI-Generated Summary