ChatPaper.aiChatPaper

로터스: 고품질 밀집 예측을 위한 확산 기반 시각 기반 모델

Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

September 26, 2024
저자: Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Liu, Bingbing Liu, Ying-Cong Chen
cs.AI

초록

사전 훈련된 텍스트-이미지 확산 모델의 시각 선행 지식을 활용하는 것은 밀집 예측 작업에서 제로샷 일반화를 향상시키는 유망한 해결책을 제공합니다. 그러나 기존 방법은 종종 원래의 확산 공식을 비판 없이 사용하는데, 이는 밀집 예측과 이미지 생성 사이의 근본적인 차이로 인해 최적이 아닐 수 있습니다. 본 논문에서는 밀집 예측을 위한 확산 공식에 대한 체계적인 분석을 제공하며, 품질과 효율성에 초점을 맞춥니다. 그 결과, 이미지 생성을 위한 원래의 매개변수화 유형은 밀집 예측에 해로울 수 있으며, 다단계 노이즈/노이즈 제거 확산 프로세스는 불필요하며 최적화하기 어렵다는 것을 발견했습니다. 이러한 통찰력을 기반으로, 밀집 예측을 위한 간단하면서 효과적인 적응 프로토콜을 갖춘 확산 기반 비주얼 기초 모델인 Lotus를 소개합니다. 구체적으로, Lotus는 해로운 분산을 피하기 위해 노이즈 대신 주석을 직접 예측하도록 훈련되며, 확산 프로세스를 단일 단계 절차로 재정의하여 최적화를 단순화하고 추론 속도를 크게 향상시킵니다. 또한 세밀하고 정확한 예측을 달성하는 새로운 튜닝 전략인 디테일 프리저버를 소개합니다. 훈련 데이터나 모델 용량을 확장하지 않고도 Lotus는 다양한 데이터셋에서 제로샷 깊이 및 법선 추정에서 SoTA 성능을 달성합니다. 또한 대부분의 기존 확산 기반 방법보다 수백 배 빠른 효율성을 크게 향상시킵니다.
English
Leveraging the visual priors of pre-trained text-to-image diffusion models offers a promising solution to enhance zero-shot generalization in dense prediction tasks. However, existing methods often uncritically use the original diffusion formulation, which may not be optimal due to the fundamental differences between dense prediction and image generation. In this paper, we provide a systemic analysis of the diffusion formulation for the dense prediction, focusing on both quality and efficiency. And we find that the original parameterization type for image generation, which learns to predict noise, is harmful for dense prediction; the multi-step noising/denoising diffusion process is also unnecessary and challenging to optimize. Based on these insights, we introduce Lotus, a diffusion-based visual foundation model with a simple yet effective adaptation protocol for dense prediction. Specifically, Lotus is trained to directly predict annotations instead of noise, thereby avoiding harmful variance. We also reformulate the diffusion process into a single-step procedure, simplifying optimization and significantly boosting inference speed. Additionally, we introduce a novel tuning strategy called detail preserver, which achieves more accurate and fine-grained predictions. Without scaling up the training data or model capacity, Lotus achieves SoTA performance in zero-shot depth and normal estimation across various datasets. It also significantly enhances efficiency, being hundreds of times faster than most existing diffusion-based methods.

Summary

AI-Generated Summary

PDF342November 16, 2024