DreamClear : Restauration d'images du monde réel à haute capacité avec une curation de jeux de données respectueuse de la vie privée
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
October 24, 2024
Auteurs: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI
Résumé
La restauration d'images (IR) dans des scénarios réels présente des défis significatifs en raison du manque de modèles à haute capacité et de jeux de données complets. Pour relever ces défis, nous présentons une stratégie double : GenIR, un pipeline innovant de curation de données, et DreamClear, un modèle de restauration d'images de pointe basé sur le Transformer de Diffusion (DiT). GenIR, notre contribution pionnière, est un pipeline d'apprentissage à double incitation qui surmonte les limitations des jeux de données existants, qui comprennent généralement seulement quelques milliers d'images et offrent donc une généralisabilité limitée pour les modèles plus grands. GenIR rationalise le processus en trois étapes : construction de paires image-texte, ajustement fin basé sur une double incitation, et génération et filtrage de données. Cette approche contourne le processus fastidieux de collecte de données, garantissant la conformité aux droits d'auteur et fournissant une solution rentable et respectueuse de la vie privée pour la construction de jeux de données IR. Le résultat est un jeu de données à grande échelle de un million d'images de haute qualité. Notre deuxième contribution, DreamClear, est un modèle de restauration d'images basé sur DiT. Il utilise les a priori génératifs des modèles de diffusion texte-image (T2I) et les capacités perceptuelles robustes des grands modèles de langage multimodal (MLLM) pour atteindre une restauration photoréaliste. Pour renforcer l'adaptabilité du modèle à diverses dégradations du monde réel, nous introduisons le Mélange de Modulateur Adaptatif (MoAM). Il utilise des a priori de dégradation au niveau du jeton pour intégrer dynamiquement divers experts en restauration, élargissant ainsi la gamme de dégradations que le modèle peut traiter. Nos expériences exhaustives confirment la performance supérieure de DreamClear, soulignant l'efficacité de notre stratégie double pour la restauration d'images dans le monde réel. Le code et les modèles pré-entraînés seront disponibles sur : https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant
challenges due to the lack of high-capacity models and comprehensive datasets.
To tackle these issues, we present a dual strategy: GenIR, an innovative data
curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer
(DiT)-based image restoration model. GenIR, our pioneering contribution, is a
dual-prompt learning pipeline that overcomes the limitations of existing
datasets, which typically comprise only a few thousand images and thus offer
limited generalizability for larger models. GenIR streamlines the process into
three stages: image-text pair construction, dual-prompt based fine-tuning, and
data generation & filtering. This approach circumvents the laborious data
crawling process, ensuring copyright compliance and providing a cost-effective,
privacy-safe solution for IR dataset construction. The result is a large-scale
dataset of one million high-quality images. Our second contribution,
DreamClear, is a DiT-based image restoration model. It utilizes the generative
priors of text-to-image (T2I) diffusion models and the robust perceptual
capabilities of multi-modal large language models (MLLMs) to achieve
photorealistic restoration. To boost the model's adaptability to diverse
real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM).
It employs token-wise degradation priors to dynamically integrate various
restoration experts, thereby expanding the range of degradations the model can
address. Our exhaustive experiments confirm DreamClear's superior performance,
underlining the efficacy of our dual strategy for real-world image restoration.
Code and pre-trained models will be available at:
https://github.com/shallowdream204/DreamClear.Summary
AI-Generated Summary