Profondità di Richiamo per una Risoluzione 4K: Stima Metrica Accurata della Profondità

Abstract

I prompt svolgono un ruolo critico nel liberare il potenziale dei modelli di base di linguaggio e visione per compiti specifici. Per la prima volta, introduciamo il prompting nei modelli di base di profondità, creando un nuovo paradigma per la stima della profondità metrica denominato Prompt Depth Anything. In particolare, utilizziamo un LiDAR a basso costo come prompt per guidare il modello Depth Anything per ottenere una precisa stima della profondità metrica, raggiungendo una risoluzione fino a 4K. Il nostro approccio si concentra su un design di fusione di prompt conciso che integra il LiDAR a diverse scale all'interno del decodificatore di profondità. Per affrontare le sfide di addestramento poste da set di dati limitati contenenti sia la profondità LiDAR che la precisa profondità GT, proponiamo un flusso di dati scalabile che include la simulazione di dati sintetici LiDAR e la generazione di profondità GT pseudo reali. Il nostro approccio stabilisce nuovi state-of-the-art nei dataset ARKitScenes e ScanNet++ e beneficia delle applicazioni downstream, inclusa la ricostruzione 3D e la presa robotica generalizzata.

English

Prompts play a critical role in unleashing the power of language and vision foundation models for specific tasks. For the first time, we introduce prompting into depth foundation models, creating a new paradigm for metric depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost LiDAR as the prompt to guide the Depth Anything model for accurate metric depth output, achieving up to 4K resolution. Our approach centers on a concise prompt fusion design that integrates the LiDAR at multiple scales within the depth decoder. To address training challenges posed by limited datasets containing both LiDAR depth and precise GT depth, we propose a scalable data pipeline that includes synthetic data LiDAR simulation and real data pseudo GT depth generation. Our approach sets new state-of-the-arts on the ARKitScenes and ScanNet++ datasets and benefits downstream applications, including 3D reconstruction and generalized robotic grasping.

Profondità di Richiamo per una Risoluzione 4K: Stima Metrica Accurata della Profondità

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

Abstract

Support