DreamClear: Hochkapazitive Bildwiederherstellung in der realen Welt mit datenschutzfreundlicher Datensatzkuratierung
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
October 24, 2024
Autoren: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI
Zusammenfassung
Die Bildwiederherstellung (IR) in realen Szenarien stellt aufgrund des Mangels an leistungsstarken Modellen und umfassenden Datensätzen erhebliche Herausforderungen dar. Um diesen Problemen zu begegnen, präsentieren wir eine doppelte Strategie: GenIR, eine innovative Datenkuratierungspipeline, und DreamClear, ein hochmodernes Bildwiederherstellungsmodell auf Basis des Diffusion Transformers (DiT). GenIR, unser bahnbrechender Beitrag, ist eine doppelte Lernpipeline, die die Einschränkungen bestehender Datensätze überwindet, die in der Regel nur aus einigen tausend Bildern bestehen und somit eine begrenzte Verallgemeinerbarkeit für größere Modelle bieten. GenIR vereinfacht den Prozess in drei Phasen: Konstruktion von Bild-Text-Paaren, Feinabstimmung auf Basis von doppelten Anweisungen und Datengenerierung und -filterung. Dieser Ansatz umgeht den mühsamen Prozess des Datensammelns, gewährleistet die Einhaltung des Urheberrechts und bietet eine kostengünstige, datenschutzsichere Lösung für den Aufbau von IR-Datensätzen. Das Ergebnis ist ein Datensatz im großen Maßstab von einer Million hochwertigen Bildern. Unser zweiter Beitrag, DreamClear, ist ein auf DiT basierendes Bildwiederherstellungsmodell. Es nutzt die generativen Voraussetzungen von Text-zu-Bild-Diffusionsmodellen und die robusten wahrnehmungsfähigen Fähigkeiten von multimodalen großen Sprachmodellen (MLLMs), um fotorealistische Wiederherstellung zu erreichen. Um die Anpassungsfähigkeit des Modells an verschiedene reale Degradierungen zu verbessern, führen wir das Mixture of Adaptive Modulator (MoAM) ein. Es verwendet tokenweise Degradierungsvoraussetzungen, um verschiedene Wiederherstellungsexperten dynamisch zu integrieren und somit den Bereich der Degradierungen zu erweitern, die das Modell bewältigen kann. Unsere umfangreichen Experimente bestätigen die überlegene Leistung von DreamClear und unterstreichen die Wirksamkeit unserer doppelten Strategie für die Bildwiederherstellung in realen Szenarien. Der Code und die vorab trainierten Modelle sind verfügbar unter: https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant
challenges due to the lack of high-capacity models and comprehensive datasets.
To tackle these issues, we present a dual strategy: GenIR, an innovative data
curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer
(DiT)-based image restoration model. GenIR, our pioneering contribution, is a
dual-prompt learning pipeline that overcomes the limitations of existing
datasets, which typically comprise only a few thousand images and thus offer
limited generalizability for larger models. GenIR streamlines the process into
three stages: image-text pair construction, dual-prompt based fine-tuning, and
data generation & filtering. This approach circumvents the laborious data
crawling process, ensuring copyright compliance and providing a cost-effective,
privacy-safe solution for IR dataset construction. The result is a large-scale
dataset of one million high-quality images. Our second contribution,
DreamClear, is a DiT-based image restoration model. It utilizes the generative
priors of text-to-image (T2I) diffusion models and the robust perceptual
capabilities of multi-modal large language models (MLLMs) to achieve
photorealistic restoration. To boost the model's adaptability to diverse
real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM).
It employs token-wise degradation priors to dynamically integrate various
restoration experts, thereby expanding the range of degradations the model can
address. Our exhaustive experiments confirm DreamClear's superior performance,
underlining the efficacy of our dual strategy for real-world image restoration.
Code and pre-trained models will be available at:
https://github.com/shallowdream204/DreamClear.Summary
AI-Generated Summary