DreamClear: 개인정보 보호를 위한 데이터셋 정리를 통한 고용량 실제 세계 이미지 복원
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
October 24, 2024
저자: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI
초록
실제 세계 시나리오에서의 이미지 복원(IR)은 고용량 모델과 포괄적인 데이터셋의 부족으로 인해 중요한 도전을 제기합니다. 이러한 문제를 해결하기 위해 우리는 GenIR이라는 혁신적인 데이터 정제 파이프라인과 DreamClear라는 첨단 확산 트랜스포머(DiT) 기반 이미지 복원 모델을 제안합니다. GenIR은 기존 데이터셋의 한계를 극복하는 이중 프롬프트 학습 파이프라인으로, 일반적으로 몇 천 장의 이미지로만 구성된 기존 데이터셋의 한정된 일반화 능력을 극복합니다. GenIR은 이미지-텍스트 쌍 구성, 이중 프롬프트 기반 미세 조정, 데이터 생성 및 필터링 세 단계로 프로세스를 간소화합니다. 이 접근 방식은 번거로운 데이터 수집 과정을 우회하여 저작권 준수를 보장하고 IR 데이터셋 구축을 위한 비용 효율적이고 개인정보 보호에 적합한 솔루션을 제공합니다. 결과적으로, 100만 장의 고품질 이미지로 구성된 대규모 데이터셋이 생성됩니다. 두 번째 기여인 DreamClear는 DiT 기반 이미지 복원 모델입니다. 이 모델은 텍스트-이미지(T2I) 확산 모델의 생성 우선순위와 다중 모달 대형 언어 모델(MLLMs)의 강력한 지각 능력을 활용하여 사실적인 복원을 달성합니다. 다양한 실제 세계 손상에 대한 모델의 적응성을 향상시키기 위해 Mixture of Adaptive Modulator (MoAM)을 소개합니다. 이는 토큰별 손상 우선순위를 활용하여 다양한 복원 전문가를 동적으로 통합하여 모델이 다룰 수 있는 손상 범위를 확장합니다. 우리의 철저한 실험은 DreamClear의 우수한 성능을 확인하며, 실제 세계 이미지 복원을 위한 우리의 이중 전략의 효과를 강조합니다. 코드 및 사전 훈련된 모델은 다음에서 사용할 수 있습니다: https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant
challenges due to the lack of high-capacity models and comprehensive datasets.
To tackle these issues, we present a dual strategy: GenIR, an innovative data
curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer
(DiT)-based image restoration model. GenIR, our pioneering contribution, is a
dual-prompt learning pipeline that overcomes the limitations of existing
datasets, which typically comprise only a few thousand images and thus offer
limited generalizability for larger models. GenIR streamlines the process into
three stages: image-text pair construction, dual-prompt based fine-tuning, and
data generation & filtering. This approach circumvents the laborious data
crawling process, ensuring copyright compliance and providing a cost-effective,
privacy-safe solution for IR dataset construction. The result is a large-scale
dataset of one million high-quality images. Our second contribution,
DreamClear, is a DiT-based image restoration model. It utilizes the generative
priors of text-to-image (T2I) diffusion models and the robust perceptual
capabilities of multi-modal large language models (MLLMs) to achieve
photorealistic restoration. To boost the model's adaptability to diverse
real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM).
It employs token-wise degradation priors to dynamically integrate various
restoration experts, thereby expanding the range of degradations the model can
address. Our exhaustive experiments confirm DreamClear's superior performance,
underlining the efficacy of our dual strategy for real-world image restoration.
Code and pre-trained models will be available at:
https://github.com/shallowdream204/DreamClear.Summary
AI-Generated Summary