Profundidade de Estímulo para Estimação Precisa de Profundidade Métrica em Resolução 4K
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation
December 18, 2024
Autores: Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
cs.AI
Resumo
As instruções desempenham um papel crítico em liberar o poder dos modelos de base de linguagem e visão para tarefas específicas. Pela primeira vez, introduzimos a instrução nos modelos de base de profundidade, criando um novo paradigma para a estimativa de profundidade métrica denominado Profundidade por Instrução. Especificamente, usamos um LiDAR de baixo custo como instrução para orientar o modelo de Profundidade por Instrução para uma saída precisa de profundidade métrica, alcançando até 4K de resolução. Nossa abordagem se concentra em um design conciso de fusão de instruções que integra o LiDAR em múltiplas escalas dentro do decodificador de profundidade. Para lidar com os desafios de treinamento impostos por conjuntos de dados limitados contendo tanto profundidade LiDAR quanto profundidade GT precisa, propomos um pipeline de dados escalável que inclui simulação de dados sintéticos de LiDAR e geração de profundidade pseudo GT de dados reais. Nossa abordagem estabelece novos estados-da-arte nos conjuntos de dados ARKitScenes e ScanNet++ e beneficia aplicações subsequentes, incluindo reconstrução 3D e agarre robótico generalizado.
English
Prompts play a critical role in unleashing the power of language and vision
foundation models for specific tasks. For the first time, we introduce
prompting into depth foundation models, creating a new paradigm for metric
depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost
LiDAR as the prompt to guide the Depth Anything model for accurate metric depth
output, achieving up to 4K resolution. Our approach centers on a concise prompt
fusion design that integrates the LiDAR at multiple scales within the depth
decoder. To address training challenges posed by limited datasets containing
both LiDAR depth and precise GT depth, we propose a scalable data pipeline that
includes synthetic data LiDAR simulation and real data pseudo GT depth
generation. Our approach sets new state-of-the-arts on the ARKitScenes and
ScanNet++ datasets and benefits downstream applications, including 3D
reconstruction and generalized robotic grasping.Summary
AI-Generated Summary