DreamClear: Hochkapazitive Bildwiederherstellung in der realen Welt mit datenschutzfreundlicher Datensatzkuratierung

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

October 24, 2024
Autoren: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI

Zusammenfassung

Die Bildwiederherstellung (IR) in realen Szenarien stellt aufgrund des Mangels an leistungsstarken Modellen und umfassenden Datensätzen erhebliche Herausforderungen dar. Um diesen Problemen zu begegnen, präsentieren wir eine doppelte Strategie: GenIR, eine innovative Datenkuratierungspipeline, und DreamClear, ein hochmodernes Bildwiederherstellungsmodell auf Basis des Diffusion Transformers (DiT). GenIR, unser bahnbrechender Beitrag, ist eine doppelte Lernpipeline, die die Einschränkungen bestehender Datensätze überwindet, die in der Regel nur aus einigen tausend Bildern bestehen und somit eine begrenzte Verallgemeinerbarkeit für größere Modelle bieten. GenIR vereinfacht den Prozess in drei Phasen: Konstruktion von Bild-Text-Paaren, Feinabstimmung auf Basis von doppelten Anweisungen und Datengenerierung und -filterung. Dieser Ansatz umgeht den mühsamen Prozess des Datensammelns, gewährleistet die Einhaltung des Urheberrechts und bietet eine kostengünstige, datenschutzsichere Lösung für den Aufbau von IR-Datensätzen. Das Ergebnis ist ein Datensatz im großen Maßstab von einer Million hochwertigen Bildern. Unser zweiter Beitrag, DreamClear, ist ein auf DiT basierendes Bildwiederherstellungsmodell. Es nutzt die generativen Voraussetzungen von Text-zu-Bild-Diffusionsmodellen und die robusten wahrnehmungsfähigen Fähigkeiten von multimodalen großen Sprachmodellen (MLLMs), um fotorealistische Wiederherstellung zu erreichen. Um die Anpassungsfähigkeit des Modells an verschiedene reale Degradierungen zu verbessern, führen wir das Mixture of Adaptive Modulator (MoAM) ein. Es verwendet tokenweise Degradierungsvoraussetzungen, um verschiedene Wiederherstellungsexperten dynamisch zu integrieren und somit den Bereich der Degradierungen zu erweitern, die das Modell bewältigen kann. Unsere umfangreichen Experimente bestätigen die überlegene Leistung von DreamClear und unterstreichen die Wirksamkeit unserer doppelten Strategie für die Bildwiederherstellung in realen Szenarien. Der Code und die vorab trainierten Modelle sind verfügbar unter: https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant challenges due to the lack of high-capacity models and comprehensive datasets. To tackle these issues, we present a dual strategy: GenIR, an innovative data curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer (DiT)-based image restoration model. GenIR, our pioneering contribution, is a dual-prompt learning pipeline that overcomes the limitations of existing datasets, which typically comprise only a few thousand images and thus offer limited generalizability for larger models. GenIR streamlines the process into three stages: image-text pair construction, dual-prompt based fine-tuning, and data generation & filtering. This approach circumvents the laborious data crawling process, ensuring copyright compliance and providing a cost-effective, privacy-safe solution for IR dataset construction. The result is a large-scale dataset of one million high-quality images. Our second contribution, DreamClear, is a DiT-based image restoration model. It utilizes the generative priors of text-to-image (T2I) diffusion models and the robust perceptual capabilities of multi-modal large language models (MLLMs) to achieve photorealistic restoration. To boost the model's adaptability to diverse real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM). It employs token-wise degradation priors to dynamically integrate various restoration experts, thereby expanding the range of degradations the model can address. Our exhaustive experiments confirm DreamClear's superior performance, underlining the efficacy of our dual strategy for real-world image restoration. Code and pre-trained models will be available at: https://github.com/shallowdream204/DreamClear.

Summary

AI-Generated Summary

PDF183November 16, 2024