DepthMaster: Domare i modelli di diffusione per la stima della profondità monoculare
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
January 5, 2025
Autori: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
cs.AI
Abstract
La stima della profondità monoculare all'interno del paradigma di denoising a diffusione mostra un'eccezionale capacità di generalizzazione ma soffre di una bassa velocità di inferenza. I metodi recenti adottano un paradigma deterministico a singolo passaggio per migliorare l'efficienza dell'inferenza pur mantenendo prestazioni comparabili. Tuttavia, trascurano il divario tra le caratteristiche generative e discriminative, portando a risultati non ottimali. In questo lavoro, proponiamo DepthMaster, un modello di diffusione a singolo passaggio progettato per adattare le caratteristiche generative per il compito di stima della profondità discriminativa. Prima, per mitigare l'overfitting ai dettagli della texture introdotti dalle caratteristiche generative, proponiamo un modulo di Allineamento delle Caratteristiche, che incorpora caratteristiche semantiche di alta qualità per migliorare la capacità di rappresentazione della rete di denoising. Secondo, per affrontare la mancanza di dettagli fini nel framework deterministico a singolo passaggio, proponiamo un modulo di Potenziamento di Fourier per bilanciare in modo adattivo la struttura a bassa frequenza e i dettagli ad alta frequenza. Adottiamo una strategia di addestramento a due fasi per sfruttare appieno il potenziale dei due moduli. Nella prima fase, ci concentriamo sull'apprendimento della struttura della scena globale con il modulo di Allineamento delle Caratteristiche, mentre nella seconda fase sfruttiamo il modulo di Potenziamento di Fourier per migliorare la qualità visiva. Attraverso questi sforzi, il nostro modello raggiunge prestazioni all'avanguardia in termini di generalizzazione e conservazione dei dettagli, superando altri metodi basati sulla diffusione su vari set di dati. La pagina del nostro progetto è disponibile su https://indu1ge.github.io/DepthMaster_page.
English
Monocular depth estimation within the diffusion-denoising paradigm
demonstrates impressive generalization ability but suffers from low inference
speed. Recent methods adopt a single-step deterministic paradigm to improve
inference efficiency while maintaining comparable performance. However, they
overlook the gap between generative and discriminative features, leading to
suboptimal results. In this work, we propose DepthMaster, a single-step
diffusion model designed to adapt generative features for the discriminative
depth estimation task. First, to mitigate overfitting to texture details
introduced by generative features, we propose a Feature Alignment module, which
incorporates high-quality semantic features to enhance the denoising network's
representation capability. Second, to address the lack of fine-grained details
in the single-step deterministic framework, we propose a Fourier Enhancement
module to adaptively balance low-frequency structure and high-frequency
details. We adopt a two-stage training strategy to fully leverage the potential
of the two modules. In the first stage, we focus on learning the global scene
structure with the Feature Alignment module, while in the second stage, we
exploit the Fourier Enhancement module to improve the visual quality. Through
these efforts, our model achieves state-of-the-art performance in terms of
generalization and detail preservation, outperforming other diffusion-based
methods across various datasets. Our project page can be found at
https://indu1ge.github.io/DepthMaster_page.Summary
AI-Generated Summary