DepthMaster: 単眼深度推定のための拡散モデルの制御
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
January 5, 2025
著者: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
cs.AI
要旨
拡散-ノイズ低減パラダイム内の単眼の深度推定は、印象的な汎化能力を示しますが、推論速度が低いという課題があります。最近の手法では、推論効率を向上させつつ、同等の性能を維持するために、単一段階の決定論的パラダイムを採用しています。しかし、これらの手法は生成的特徴と識別的特徴の間のギャップを見落としており、最適でない結果につながっています。本研究では、生成的特徴を識別的深度推定タスクに適応させるために設計された単一段階の拡散モデルであるDepthMasterを提案します。まず、生成的特徴によって導入されるテクスチャの詳細に過剰適合を緩和するために、高品質の意味的特徴を取り入れてノイズ低減ネットワークの表現能力を向上させるFeature Alignmentモジュールを提案します。次に、単一段階の決定論的フレームワークにおける微細な詳細の不足に対処するために、低周波構造と高周波詳細を適応的にバランスさせるFourier Enhancementモジュールを提案します。我々は、2つのモジュールの潜在能力を十分に活用するための2段階のトレーニング戦略を採用しています。第1段階では、Feature Alignmentモジュールを使用してグローバルなシーン構造を学習し、第2段階では、Fourier Enhancementモジュールを活用して視覚的品質を向上させます。これらの取り組みにより、当社のモデルは、汎化性能と詳細の保存において最先端の性能を達成し、さまざまなデータセットで他の拡散ベースの手法を凌駕しています。プロジェクトページは、https://indu1ge.github.io/DepthMaster_page でご覧いただけます。
English
Monocular depth estimation within the diffusion-denoising paradigm
demonstrates impressive generalization ability but suffers from low inference
speed. Recent methods adopt a single-step deterministic paradigm to improve
inference efficiency while maintaining comparable performance. However, they
overlook the gap between generative and discriminative features, leading to
suboptimal results. In this work, we propose DepthMaster, a single-step
diffusion model designed to adapt generative features for the discriminative
depth estimation task. First, to mitigate overfitting to texture details
introduced by generative features, we propose a Feature Alignment module, which
incorporates high-quality semantic features to enhance the denoising network's
representation capability. Second, to address the lack of fine-grained details
in the single-step deterministic framework, we propose a Fourier Enhancement
module to adaptively balance low-frequency structure and high-frequency
details. We adopt a two-stage training strategy to fully leverage the potential
of the two modules. In the first stage, we focus on learning the global scene
structure with the Feature Alignment module, while in the second stage, we
exploit the Fourier Enhancement module to improve the visual quality. Through
these efforts, our model achieves state-of-the-art performance in terms of
generalization and detail preservation, outperforming other diffusion-based
methods across various datasets. Our project page can be found at
https://indu1ge.github.io/DepthMaster_page.Summary
AI-Generated Summary