DepthMaster: Domando Modelos de Difusão para Estimação de Profundidade Monocular

DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

January 5, 2025
Autores: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
cs.AI

Resumo

A estimativa de profundidade monocular dentro do paradigma de difusão e denoising demonstra uma impressionante capacidade de generalização, mas sofre com baixa velocidade de inferência. Métodos recentes adotam um paradigma determinístico de um único passo para melhorar a eficiência de inferência mantendo desempenho comparável. No entanto, eles negligenciam a lacuna entre características generativas e discriminativas, resultando em resultados subótimos. Neste trabalho, propomos o DepthMaster, um modelo de difusão de um único passo projetado para adaptar características generativas para a tarefa de estimativa de profundidade discriminativa. Primeiramente, para mitigar o overfitting a detalhes de textura introduzidos por características generativas, propomos um módulo de Alinhamento de Características, que incorpora características semânticas de alta qualidade para aprimorar a capacidade de representação da rede de denoising. Em segundo lugar, para lidar com a falta de detalhes refinados no framework determinístico de um único passo, propomos um módulo de Aprimoramento de Fourier para equilibrar adaptativamente a estrutura de baixa frequência e detalhes de alta frequência. Adotamos uma estratégia de treinamento em duas etapas para aproveitar totalmente o potencial dos dois módulos. Na primeira etapa, focamos em aprender a estrutura global da cena com o módulo de Alinhamento de Características, enquanto na segunda etapa, exploramos o módulo de Aprimoramento de Fourier para melhorar a qualidade visual. Através desses esforços, nosso modelo alcança desempenho de ponta em termos de generalização e preservação de detalhes, superando outros métodos baseados em difusão em vários conjuntos de dados. Nossa página do projeto pode ser encontrada em https://indu1ge.github.io/DepthMaster_page.
English
Monocular depth estimation within the diffusion-denoising paradigm demonstrates impressive generalization ability but suffers from low inference speed. Recent methods adopt a single-step deterministic paradigm to improve inference efficiency while maintaining comparable performance. However, they overlook the gap between generative and discriminative features, leading to suboptimal results. In this work, we propose DepthMaster, a single-step diffusion model designed to adapt generative features for the discriminative depth estimation task. First, to mitigate overfitting to texture details introduced by generative features, we propose a Feature Alignment module, which incorporates high-quality semantic features to enhance the denoising network's representation capability. Second, to address the lack of fine-grained details in the single-step deterministic framework, we propose a Fourier Enhancement module to adaptively balance low-frequency structure and high-frequency details. We adopt a two-stage training strategy to fully leverage the potential of the two modules. In the first stage, we focus on learning the global scene structure with the Feature Alignment module, while in the second stage, we exploit the Fourier Enhancement module to improve the visual quality. Through these efforts, our model achieves state-of-the-art performance in terms of generalization and detail preservation, outperforming other diffusion-based methods across various datasets. Our project page can be found at https://indu1ge.github.io/DepthMaster_page.

Summary

AI-Generated Summary

PDF154January 7, 2025