DepthMaster: Domando Modelos de Difusão para Estimação de Profundidade Monocular
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
January 5, 2025
Autores: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
cs.AI
Resumo
A estimativa de profundidade monocular dentro do paradigma de difusão e denoising demonstra uma impressionante capacidade de generalização, mas sofre com baixa velocidade de inferência. Métodos recentes adotam um paradigma determinístico de um único passo para melhorar a eficiência de inferência mantendo desempenho comparável. No entanto, eles negligenciam a lacuna entre características generativas e discriminativas, resultando em resultados subótimos. Neste trabalho, propomos o DepthMaster, um modelo de difusão de um único passo projetado para adaptar características generativas para a tarefa de estimativa de profundidade discriminativa. Primeiramente, para mitigar o overfitting a detalhes de textura introduzidos por características generativas, propomos um módulo de Alinhamento de Características, que incorpora características semânticas de alta qualidade para aprimorar a capacidade de representação da rede de denoising. Em segundo lugar, para lidar com a falta de detalhes refinados no framework determinístico de um único passo, propomos um módulo de Aprimoramento de Fourier para equilibrar adaptativamente a estrutura de baixa frequência e detalhes de alta frequência. Adotamos uma estratégia de treinamento em duas etapas para aproveitar totalmente o potencial dos dois módulos. Na primeira etapa, focamos em aprender a estrutura global da cena com o módulo de Alinhamento de Características, enquanto na segunda etapa, exploramos o módulo de Aprimoramento de Fourier para melhorar a qualidade visual. Através desses esforços, nosso modelo alcança desempenho de ponta em termos de generalização e preservação de detalhes, superando outros métodos baseados em difusão em vários conjuntos de dados. Nossa página do projeto pode ser encontrada em https://indu1ge.github.io/DepthMaster_page.
English
Monocular depth estimation within the diffusion-denoising paradigm
demonstrates impressive generalization ability but suffers from low inference
speed. Recent methods adopt a single-step deterministic paradigm to improve
inference efficiency while maintaining comparable performance. However, they
overlook the gap between generative and discriminative features, leading to
suboptimal results. In this work, we propose DepthMaster, a single-step
diffusion model designed to adapt generative features for the discriminative
depth estimation task. First, to mitigate overfitting to texture details
introduced by generative features, we propose a Feature Alignment module, which
incorporates high-quality semantic features to enhance the denoising network's
representation capability. Second, to address the lack of fine-grained details
in the single-step deterministic framework, we propose a Fourier Enhancement
module to adaptively balance low-frequency structure and high-frequency
details. We adopt a two-stage training strategy to fully leverage the potential
of the two modules. In the first stage, we focus on learning the global scene
structure with the Feature Alignment module, while in the second stage, we
exploit the Fourier Enhancement module to improve the visual quality. Through
these efforts, our model achieves state-of-the-art performance in terms of
generalization and detail preservation, outperforming other diffusion-based
methods across various datasets. Our project page can be found at
https://indu1ge.github.io/DepthMaster_page.Summary
AI-Generated Summary