Profundidade de Estímulo para Estimação Precisa de Profundidade Métrica em Resolução 4K

Resumo

As instruções desempenham um papel crítico em liberar o poder dos modelos de base de linguagem e visão para tarefas específicas. Pela primeira vez, introduzimos a instrução nos modelos de base de profundidade, criando um novo paradigma para a estimativa de profundidade métrica denominado Profundidade por Instrução. Especificamente, usamos um LiDAR de baixo custo como instrução para orientar o modelo de Profundidade por Instrução para uma saída precisa de profundidade métrica, alcançando até 4K de resolução. Nossa abordagem se concentra em um design conciso de fusão de instruções que integra o LiDAR em múltiplas escalas dentro do decodificador de profundidade. Para lidar com os desafios de treinamento impostos por conjuntos de dados limitados contendo tanto profundidade LiDAR quanto profundidade GT precisa, propomos um pipeline de dados escalável que inclui simulação de dados sintéticos de LiDAR e geração de profundidade pseudo GT de dados reais. Nossa abordagem estabelece novos estados-da-arte nos conjuntos de dados ARKitScenes e ScanNet++ e beneficia aplicações subsequentes, incluindo reconstrução 3D e agarre robótico generalizado.

English

Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. Our approach sets new state-of-the-arts on the ARKitScenes and ScanNet++ datasets and benefits downstream applications, including 3D reconstruction and generalized robotic grasping.

Profundidade de Estímulo para Estimação Precisa de Profundidade Métrica em Resolução 4K

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

Resumo

Support