4K解像度に対する正確なメトリック深度推定のための深度プロンプティング
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation
December 18, 2024
著者: Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang
cs.AI
要旨
プロンプトは、特定のタスクのための言語とビジョンの基盤モデルの力を解き放つ上で重要な役割を果たします。初めて、我々はプロンプトを深層基盤モデルに導入し、Prompt Depth Anythingと呼ばれるメトリック深度推定の新しいパラダイムを作り出しました。具体的には、低コストのLiDARをプロンプトとして使用し、正確なメトリック深度出力を行うDepth Anythingモデルをガイドします。これにより、最大4Kの解像度が実現されます。我々の手法は、深度デコーダ内でLiDARを複数のスケールで統合する簡潔なプロンプト融合設計に焦点を当てています。LiDAR深度と正確なGT深度の両方を含む限られたデータセットによって引き起こされるトレーニングの課題に対処するため、我々は、合成データLiDARシミュレーションと実データ擬似GT深度生成を含むスケーラブルなデータパイプラインを提案しています。我々の手法は、ARKitScenesとScanNet++データセットで新たな最先端を確立し、3D再構築や汎用ロボットグラスピングなどの下流アプリケーションに恩恵をもたらします。
English
Prompts play a critical role in unleashing the power of language and vision
foundation models for specific tasks. For the first time, we introduce
prompting into depth foundation models, creating a new paradigm for metric
depth estimation termed Prompt Depth Anything. Specifically, we use a low-cost
LiDAR as the prompt to guide the Depth Anything model for accurate metric depth
output, achieving up to 4K resolution. Our approach centers on a concise prompt
fusion design that integrates the LiDAR at multiple scales within the depth
decoder. To address training challenges posed by limited datasets containing
both LiDAR depth and precise GT depth, we propose a scalable data pipeline that
includes synthetic data LiDAR simulation and real data pseudo GT depth
generation. Our approach sets new state-of-the-arts on the ARKitScenes and
ScanNet++ datasets and benefits downstream applications, including 3D
reconstruction and generalized robotic grasping.Summary
AI-Generated Summary