지속 상태를 가진 연속적인 3D 인식 모델
Continuous 3D Perception Model with Persistent State
January 21, 2025
저자: Qianqian Wang, Yifei Zhang, Aleksander Holynski, Alexei A. Efros, Angjoo Kanazawa
cs.AI
초록
다양한 3D 작업을 해결할 수 있는 통합된 프레임워크를 제시합니다. 저희 방법론은 상태를 가진 순환 모델을 특징으로 하며, 각 새로운 관측마다 상태 표현을 지속적으로 업데이트합니다. 이미지 스트림이 주어지면 이 변화하는 상태는 온라인 방식으로 각 새로운 입력에 대해 메트릭 규모의 포인트맵(픽셀 단위 3D 포인트)을 생성하는 데 사용될 수 있습니다. 이러한 포인트맵은 공통 좌표 시스템 내에 존재하며, 새로운 이미지가 도착할 때마다 업데이트되는 일관된 밀집한 장면 재구성으로 누적될 수 있습니다. CUT3R(3D 재구성을 위한 연속 업데이팅 트랜스포머)라는 우리의 모델은 실제 세계 장면의 풍부한 사전 정보를 포착합니다. 이미지 관측에서 정확한 포인트맵을 예측할 수 있을 뿐만 아니라 가상의 관측을 조사함으로써 장면의 보이지 않는 영역을 추론할 수도 있습니다. 우리의 방법은 간단하면서도 매우 유연하며, 비디오 스트림이나 정렬되지 않은 사진 모음일 수 있는 다양한 길이의 이미지를 자연스럽게 수용하며 정적 및 동적 콘텐츠를 모두 포함합니다. 우리는 다양한 3D/4D 작업에서 우리의 방법을 평가하고 각 작업에서 경쟁력이 있거나 최신 기술을 보여줍니다. 프로젝트 페이지: https://cut3r.github.io/
English
We present a unified framework capable of solving a broad range of 3D tasks.
Our approach features a stateful recurrent model that continuously updates its
state representation with each new observation. Given a stream of images, this
evolving state can be used to generate metric-scale pointmaps (per-pixel 3D
points) for each new input in an online fashion. These pointmaps reside within
a common coordinate system, and can be accumulated into a coherent, dense scene
reconstruction that updates as new images arrive. Our model, called CUT3R
(Continuous Updating Transformer for 3D Reconstruction), captures rich priors
of real-world scenes: not only can it predict accurate pointmaps from image
observations, but it can also infer unseen regions of the scene by probing at
virtual, unobserved views. Our method is simple yet highly flexible, naturally
accepting varying lengths of images that may be either video streams or
unordered photo collections, containing both static and dynamic content. We
evaluate our method on various 3D/4D tasks and demonstrate competitive or
state-of-the-art performance in each. Project Page: https://cut3r.github.io/Summary
AI-Generated Summary