Profondità di Richiamo per una Risoluzione 4K: Stima Metrica Accurata della Profondità
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation
December 18, 2024
Autori: Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
cs.AI
Abstract
I prompt svolgono un ruolo critico nel liberare il potenziale dei modelli di base di linguaggio e visione per compiti specifici. Per la prima volta, introduciamo il prompting nei modelli di base di profondità, creando un nuovo paradigma per la stima della profondità metrica denominato Prompt Depth Anything. In particolare, utilizziamo un LiDAR a basso costo come prompt per guidare il modello Depth Anything per ottenere una precisa stima della profondità metrica, raggiungendo una risoluzione fino a 4K. Il nostro approccio si concentra su un design di fusione di prompt conciso che integra il LiDAR a diverse scale all'interno del decodificatore di profondità. Per affrontare le sfide di addestramento poste da set di dati limitati contenenti sia la profondità LiDAR che la precisa profondità GT, proponiamo un flusso di dati scalabile che include la simulazione di dati sintetici LiDAR e la generazione di profondità GT pseudo reali. Il nostro approccio stabilisce nuovi state-of-the-art nei dataset ARKitScenes e ScanNet++ e beneficia delle applicazioni downstream, inclusa la ricostruzione 3D e la presa robotica generalizzata.
English
Prompts play a critical role in unleashing the power of language and vision
foundation models for specific tasks. For the first time, we introduce
prompting into depth foundation models, creating a new paradigm for metric
depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost
LiDAR as the prompt to guide the Depth Anything model for accurate metric depth
output, achieving up to 4K resolution. Our approach centers on a concise prompt
fusion design that integrates the LiDAR at multiple scales within the depth
decoder. To address training challenges posed by limited datasets containing
both LiDAR depth and precise GT depth, we propose a scalable data pipeline that
includes synthetic data LiDAR simulation and real data pseudo GT depth
generation. Our approach sets new state-of-the-arts on the ARKitScenes and
ScanNet++ datasets and benefits downstream applications, including 3D
reconstruction and generalized robotic grasping.Summary
AI-Generated Summary