MonST3R: 움직임이 존재하는 상황에서 기하학을 추정하기 위한 간단한 방법
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion
October 4, 2024
저자: Junyi Zhang, Charles Herrmann, Junhwa Hur, Varun Jampani, Trevor Darrell, Forrester Cole, Deqing Sun, Ming-Hsuan Yang
cs.AI
초록
동적 장면에서 기하학을 추정하는 것은 컴퓨터 비전에서 핵심적인 도전 과제로 남아 있습니다. 현재의 접근 방식은 종종 다단계 파이프라인이나 문제를 깊이와 흐름과 같은 하위 작업으로 분해하는 전역 최적화에 의존하여 복잡한 시스템을 만들어내는 경향이 있습니다. 본 논문에서는 동적 장면으로부터 단계별 기하학을 직접 추정하는 혁신적인 geometry-first 접근 방식인 Motion DUSt3R (MonST3R)을 제안합니다. 우리의 주요 통찰은 각 단계에 대한 포인트맵을 간단히 추정함으로써, 이전에 정적 장면에만 사용되었던 DUST3R의 표현을 동적 장면에 효과적으로 적응시킬 수 있다는 것입니다. 그러나 이 접근 방식은 적절한 훈련 데이터, 즉 깊이 레이블이 있는 동적인 포즈 비디오의 부족이라는 중요한 도전 과제를 제시합니다. 이에도 불구하고, 우리는 문제를 세밀한 조정 작업으로 설정하고, 여러 적합한 데이터셋을 식별하고, 이 제한된 데이터에 모델을 전략적으로 훈련시킴으로써, 모델이 명시적인 동작 표현 없이도 놀랍도록 동역학을 처리할 수 있도록 할 수 있다는 것을 보여줍니다. 이를 기반으로, 우리는 여러 하류 비디오 특정 작업에 대한 새로운 최적화를 소개하고, 비디오 깊이 및 카메라 위치 추정에서 강력한 성능을 보여주어 이전 연구를 능가하는 강건성과 효율성을 나타냅니다. 게다가, MonST3R은 주로 피드포워드 4D 재구성에 대해 유망한 결과를 보여줍니다.
English
Estimating geometry from dynamic scenes, where objects move and deform over
time, remains a core challenge in computer vision. Current approaches often
rely on multi-stage pipelines or global optimizations that decompose the
problem into subtasks, like depth and flow, leading to complex systems prone to
errors. In this paper, we present Motion DUSt3R (MonST3R), a novel
geometry-first approach that directly estimates per-timestep geometry from
dynamic scenes. Our key insight is that by simply estimating a pointmap for
each timestep, we can effectively adapt DUST3R's representation, previously
only used for static scenes, to dynamic scenes. However, this approach presents
a significant challenge: the scarcity of suitable training data, namely
dynamic, posed videos with depth labels. Despite this, we show that by posing
the problem as a fine-tuning task, identifying several suitable datasets, and
strategically training the model on this limited data, we can surprisingly
enable the model to handle dynamics, even without an explicit motion
representation. Based on this, we introduce new optimizations for several
downstream video-specific tasks and demonstrate strong performance on video
depth and camera pose estimation, outperforming prior work in terms of
robustness and efficiency. Moreover, MonST3R shows promising results for
primarily feed-forward 4D reconstruction.Summary
AI-Generated Summary