DepthMaster: 단안 깊이 추정을 위한 확산 모델 다루기
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
January 5, 2025
저자: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
cs.AI
초록
확산-소음 패러다임 내에서의 단안 깊이 추정은 높은 일반화 능력을 보이지만 추론 속도가 낮은 단점을 가지고 있습니다. 최근의 방법들은 비교 가능한 성능을 유지하면서 추론 효율성을 향상시키기 위해 단일 단계 결정론적 패러다임을 채택했습니다. 그러나 이러한 방법들은 생성적 및 판별적 특징 간의 간극을 간과하여 최적이 아닌 결과를 초래합니다. 본 연구에서는 생성적 특징을 판별적 깊이 추정 작업에 적응시키기 위해 설계된 단일 단계 확산 모델인 DepthMaster를 제안합니다. 먼저, 생성적 특징에 의해 도입된 질감 세부 사항에 대한 과적합을 완화하기 위해 고품질 의미론적 특징을 통합하여 소음 제거 네트워크의 표현 능력을 향상시키는 특징 정렬 모듈을 제안합니다. 둘째, 단일 단계 결정론적 프레임워크 내 세부적인 세부 사항 부족에 대응하기 위해 저주파 구조와 고주파 세부 사항을 적응적으로 균형있게 조절하는 푸리에 강화 모듈을 제안합니다. 두 모듈의 잠재력을 최대한 활용하기 위해 두 단계 학습 전략을 채택합니다. 첫 번째 단계에서는 특징 정렬 모듈을 사용하여 전역 장면 구조를 학습하고, 두 번째 단계에서는 푸리에 강화 모듈을 활용하여 시각적 품질을 향상시킵니다. 이러한 노력을 통해 우리 모델은 다양한 데이터셋을 통해 다른 확산 기반 방법을 능가하는 일반화 및 세부 사항 보존 면에서 최첨단 성능을 달성합니다. 프로젝트 페이지는 https://indu1ge.github.io/DepthMaster_page에서 확인할 수 있습니다.
English
Monocular depth estimation within the diffusion-denoising paradigm
demonstrates impressive generalization ability but suffers from low inference
speed. Recent methods adopt a single-step deterministic paradigm to improve
inference efficiency while maintaining comparable performance. However, they
overlook the gap between generative and discriminative features, leading to
suboptimal results. In this work, we propose DepthMaster, a single-step
diffusion model designed to adapt generative features for the discriminative
depth estimation task. First, to mitigate overfitting to texture details
introduced by generative features, we propose a Feature Alignment module, which
incorporates high-quality semantic features to enhance the denoising network's
representation capability. Second, to address the lack of fine-grained details
in the single-step deterministic framework, we propose a Fourier Enhancement
module to adaptively balance low-frequency structure and high-frequency
details. We adopt a two-stage training strategy to fully leverage the potential
of the two modules. In the first stage, we focus on learning the global scene
structure with the Feature Alignment module, while in the second stage, we
exploit the Fourier Enhancement module to improve the visual quality. Through
these efforts, our model achieves state-of-the-art performance in terms of
generalization and detail preservation, outperforming other diffusion-based
methods across various datasets. Our project page can be found at
https://indu1ge.github.io/DepthMaster_page.Summary
AI-Generated Summary