ChatPaper.aiChatPaper

4K 해상도에 대한 정확한 측정 깊이 추정을 위한 깊이 유도 방법

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

December 18, 2024
저자: Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
cs.AI

초록

프롬프트는 특정 작업을 위한 언어 및 비전 기반 모델의 성능을 발휘하는 데 중요한 역할을 합니다. 이번에는 깊이 기반 모델에 프롬프팅을 처음으로 도입하여 메트릭 깊이 추정을 위한 새로운 패러다임을 만들었습니다. 이를 Prompt Depth Anything이라고 합니다. 구체적으로, 우리는 저렴한 비용의 LiDAR를 프롬프트로 사용하여 정확한 메트릭 깊이 출력을 위해 Depth Anything 모델을 안내합니다. 이를 통해 최대 4K 해상도를 달성했습니다. 우리의 접근 방식은 깊이 디코더 내에서 다양한 스케일에서 LiDAR를 통합하는 간결한 프롬프트 퓨전 디자인을 중심으로 합니다. LiDAR 깊이와 정확한 GT(ground truth) 깊이를 모두 포함하는 한정된 데이터셋으로 인한 교육 과제를 해결하기 위해, 우리는 합성 데이터 LiDAR 시뮬레이션 및 실제 데이터 가짜 GT 깊이 생성을 포함하는 확장 가능한 데이터 파이프라인을 제안합니다. 우리의 접근 방식은 ARKitScenes 및 ScanNet++ 데이터셋에서 새로운 최첨단을 세우고, 3D 재구성 및 일반화된 로봇 그랩핑을 포함한 하류 응용 프로그램에 혜택을 줍니다.
English
Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. Our approach sets new state-of-the-arts on the ARKitScenes and ScanNet++ datasets and benefits downstream applications, including 3D reconstruction and generalized robotic grasping.
PDF124December 19, 2024