DreamClear : Restauration d'images du monde réel à haute capacité avec une curation de jeux de données respectueuse de la vie privée

Résumé

La restauration d'images (IR) dans des scénarios réels présente des défis significatifs en raison du manque de modèles à haute capacité et de jeux de données complets. Pour relever ces défis, nous présentons une stratégie double : GenIR, un pipeline innovant de curation de données, et DreamClear, un modèle de restauration d'images de pointe basé sur le Transformer de Diffusion (DiT). GenIR, notre contribution pionnière, est un pipeline d'apprentissage à double incitation qui surmonte les limitations des jeux de données existants, qui comprennent généralement seulement quelques milliers d'images et offrent donc une généralisabilité limitée pour les modèles plus grands. GenIR rationalise le processus en trois étapes : construction de paires image-texte, ajustement fin basé sur une double incitation, et génération et filtrage de données. Cette approche contourne le processus fastidieux de collecte de données, garantissant la conformité aux droits d'auteur et fournissant une solution rentable et respectueuse de la vie privée pour la construction de jeux de données IR. Le résultat est un jeu de données à grande échelle de un million d'images de haute qualité. Notre deuxième contribution, DreamClear, est un modèle de restauration d'images basé sur DiT. Il utilise les a priori génératifs des modèles de diffusion texte-image (T2I) et les capacités perceptuelles robustes des grands modèles de langage multimodal (MLLM) pour atteindre une restauration photoréaliste. Pour renforcer l'adaptabilité du modèle à diverses dégradations du monde réel, nous introduisons le Mélange de Modulateur Adaptatif (MoAM). Il utilise des a priori de dégradation au niveau du jeton pour intégrer dynamiquement divers experts en restauration, élargissant ainsi la gamme de dégradations que le modèle peut traiter. Nos expériences exhaustives confirment la performance supérieure de DreamClear, soulignant l'efficacité de notre stratégie double pour la restauration d'images dans le monde réel. Le code et les modèles pré-entraînés seront disponibles sur : https://github.com/shallowdream204/DreamClear.

English

Image restoration (IR) in real-world scenarios presents significant challenges due to the lack of high-capacity models and comprehensive datasets. To tackle these issues, we present a dual strategy: GenIR, an innovative data curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer (DiT)-based image restoration model. GenIR, our pioneering contribution, is a dual-prompt learning pipeline that overcomes the limitations of existing datasets, which typically comprise only a few thousand images and thus offer limited generalizability for larger models. GenIR streamlines the process into three stages: image-text pair construction, dual-prompt based fine-tuning, and data generation & filtering. This approach circumvents the laborious data crawling process, ensuring copyright compliance and providing a cost-effective, privacy-safe solution for IR dataset construction. The result is a large-scale dataset of one million high-quality images. Our second contribution, DreamClear, is a DiT-based image restoration model. It utilizes the generative priors of text-to-image (T2I) diffusion models and the robust perceptual capabilities of multi-modal large language models (MLLMs) to achieve photorealistic restoration. To boost the model's adaptability to diverse real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM). It employs token-wise degradation priors to dynamically integrate various restoration experts, thereby expanding the range of degradations the model can address. Our exhaustive experiments confirm DreamClear's superior performance, underlining the efficacy of our dual strategy for real-world image restoration. Code and pre-trained models will be available at: https://github.com/shallowdream204/DreamClear.

DreamClear : Restauration d'images du monde réel à haute capacité avec une curation de jeux de données respectueuse de la vie privée

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

Résumé

Summary

Support