깊이 프로: 1초 미만의 시간 내에 날카로운 단안 메트릭 깊이
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
October 2, 2024
저자: Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun
cs.AI
초록
제로샷 메트릭 단안 심도 추정을 위한 기반 모델을 제안합니다. 저희 모델인 Depth Pro는 뛰어난 날카로움과 고주파 세부 사항을 갖춘 고해상도 심도 맵을 합성합니다. 예측값은 절대적인 척도를 갖추어 메트릭하며, 카메라 내부 파라미터와 같은 메타데이터의 가용성에 의존하지 않습니다. 또한 모델은 표준 GPU에서 0.3초 안에 2.25메가픽셀 심도 맵을 생성하는 빠른 속도를 자랑합니다. 이러한 특성은 밀도 있는 예측을 위한 효율적인 다중 스케일 비전 트랜스포머, 고메트릭 정확도 및 세밀한 경계 추적을 달성하기 위해 실제 및 합성 데이터셋을 결합하는 교육 프로토콜, 추정된 심도 맵에서 경계 정확도를 위한 전용 평가 메트릭, 그리고 단일 이미지로부터 최첨단 초점 거리 추정을 가능케 하는 여러 기술적 기여들에 의해 활성화됩니다. 첨단 설계 선택 사항을 분석하고 Depth Pro가 다양한 차원에서 이전 작업을 능가함을 입증하는 광범위한 실험을 통해 결과를 제시합니다. 코드 및 가중치는 https://github.com/apple/ml-depth-pro에서 공개됩니다.
English
We present a foundation model for zero-shot metric monocular depth
estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with
unparalleled sharpness and high-frequency details. The predictions are metric,
with absolute scale, without relying on the availability of metadata such as
camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map
in 0.3 seconds on a standard GPU. These characteristics are enabled by a number
of technical contributions, including an efficient multi-scale vision
transformer for dense prediction, a training protocol that combines real and
synthetic datasets to achieve high metric accuracy alongside fine boundary
tracing, dedicated evaluation metrics for boundary accuracy in estimated depth
maps, and state-of-the-art focal length estimation from a single image.
Extensive experiments analyze specific design choices and demonstrate that
Depth Pro outperforms prior work along multiple dimensions. We release code and
weights at https://github.com/apple/ml-depth-proSummary
AI-Generated Summary