Marigold-DC: Completude de Profundidade Monocular sem Necessidade de Treinamento com Difusão Guiada
Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion
December 18, 2024
Autores: Massimiliano Viola, Kevin Qu, Nando Metzger, Bingxin Ke, Alexander Becker, Konrad Schindler, Anton Obukhov
cs.AI
Resumo
A conclusão de profundidade atualiza medições esparsas de profundidade em mapas de profundidade densos, guiados por uma imagem convencional. Métodos existentes para essa tarefa altamente malposta operam em configurações rigidamente restritas e tendem a ter dificuldades quando aplicados a imagens fora do domínio de treinamento ou quando as medições de profundidade disponíveis são esparsas, distribuídas irregularmente ou de densidade variável. Inspirados nos avanços recentes na estimativa de profundidade monocular, reformulamos a conclusão de profundidade como uma geração de mapa de profundidade condicionada à imagem, guiada por medições esparsas. Nosso método, Marigold-DC, baseia-se em um modelo de difusão latente pré-treinado para estimativa de profundidade monocular e injeta as observações de profundidade como orientação no tempo de teste por meio de um esquema de otimização que é executado em conjunto com a inferência iterativa da difusão de denoising. O método demonstra excelente generalização de zero-shot em uma ampla gama de ambientes e lida até mesmo com orientações extremamente esparsas de forma eficaz. Nossos resultados sugerem que as prioridades contemporâneas de profundidade monocular robustecem significativamente a conclusão de profundidade: pode ser melhor encarar a tarefa como recuperar profundidade densa a partir de pixels de imagem (densos), guiados por profundidade esparsa; em vez de como preenchimento de profundidade (esparsa), guiado por uma imagem. Site do projeto: https://MarigoldDepthCompletion.github.io/
English
Depth completion upgrades sparse depth measurements into dense depth maps
guided by a conventional image. Existing methods for this highly ill-posed task
operate in tightly constrained settings and tend to struggle when applied to
images outside the training domain or when the available depth measurements are
sparse, irregularly distributed, or of varying density. Inspired by recent
advances in monocular depth estimation, we reframe depth completion as an
image-conditional depth map generation guided by sparse measurements. Our
method, Marigold-DC, builds on a pretrained latent diffusion model for
monocular depth estimation and injects the depth observations as test-time
guidance via an optimization scheme that runs in tandem with the iterative
inference of denoising diffusion. The method exhibits excellent zero-shot
generalization across a diverse range of environments and handles even
extremely sparse guidance effectively. Our results suggest that contemporary
monocular depth priors greatly robustify depth completion: it may be better to
view the task as recovering dense depth from (dense) image pixels, guided by
sparse depth; rather than as inpainting (sparse) depth, guided by an image.
Project website: https://MarigoldDepthCompletion.github.io/Summary
AI-Generated Summary