Marigold-DC: Completamento della Profondità Monoculare Zero-Shot con Diffusione Guidata
Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion
December 18, 2024
Autori: Massimiliano Viola, Kevin Qu, Nando Metzger, Bingxin Ke, Alexander Becker, Konrad Schindler, Anton Obukhov
cs.AI
Abstract
Il completamento della profondità migliora le misurazioni di profondità sparse in mappe di profondità dense guidate da un'immagine convenzionale. I metodi esistenti per questo compito altamente mal posto operano in contesti fortemente vincolati e tendono a incontrare difficoltà quando applicati a immagini al di fuori del dominio di addestramento o quando le misurazioni di profondità disponibili sono sparse, distribuite in modo irregolare o di densità variabile. Ispirandoci ai recenti progressi nella stima della profondità monoculare, riformuliamo il completamento della profondità come generazione di mappe di profondità condizionate all'immagine guidate da misurazioni sparse. Il nostro metodo, Marigold-DC, si basa su un modello di diffusione latente preaddestrato per la stima della profondità monoculare e inserisce le osservazioni di profondità come guida al momento del test tramite uno schema di ottimizzazione che viene eseguito in parallelo con l'inferenza iterativa della diffusione del denoising. Il metodo mostra un'eccellente generalizzazione zero-shot attraverso una vasta gamma di ambienti e gestisce in modo efficace anche una guida estremamente scarsa. I nostri risultati suggeriscono che i priors di profondità monoculare contemporanei rendono notevolmente più robusto il completamento della profondità: potrebbe essere meglio considerare il compito come il recupero di una profondità densa da pixel di immagine (densi), guidato da una profondità scarsa; piuttosto che come un'inpainting di profondità (scarso), guidato da un'immagine. Sito web del progetto: https://MarigoldDepthCompletion.github.io/
English
Depth completion upgrades sparse depth measurements into dense depth maps
guided by a conventional image. Existing methods for this highly ill-posed task
operate in tightly constrained settings and tend to struggle when applied to
images outside the training domain or when the available depth measurements are
sparse, irregularly distributed, or of varying density. Inspired by recent
advances in monocular depth estimation, we reframe depth completion as an
image-conditional depth map generation guided by sparse measurements. Our
method, Marigold-DC, builds on a pretrained latent diffusion model for
monocular depth estimation and injects the depth observations as test-time
guidance via an optimization scheme that runs in tandem with the iterative
inference of denoising diffusion. The method exhibits excellent zero-shot
generalization across a diverse range of environments and handles even
extremely sparse guidance effectively. Our results suggest that contemporary
monocular depth priors greatly robustify depth completion: it may be better to
view the task as recovering dense depth from (dense) image pixels, guided by
sparse depth; rather than as inpainting (sparse) depth, guided by an image.
Project website: https://MarigoldDepthCompletion.github.io/Summary
AI-Generated Summary