DreamClear: Ripristino di immagini ad alta capacità nel mondo reale con la cura dei dataset sicura per la privacy
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
October 24, 2024
Autori: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI
Abstract
Il ripristino delle immagini (IR) in scenari del mondo reale presenta significativi
sfide a causa della mancanza di modelli ad alta capacità e dataset completi.
Per affrontare questi problemi, presentiamo una strategia duale: GenIR, un innovativo
pipeline di cura dei dati, e DreamClear, un avanzato modello di ripristino delle immagini basato su Diffusion Transformer (DiT). GenIR, il nostro contributo pionieristico, è un
pipeline di apprendimento a doppia prompt che supera i limiti dei dataset esistenti, che tipicamente comprendono solo alcune migliaia di immagini e offrono quindi
una generalizzabilità limitata per modelli più grandi. GenIR semplifica il processo in
tre fasi: costruzione di coppie immagine-testo, fine-tuning basato su doppio prompt e
generazione e filtraggio dei dati. Questo approccio evita il laborioso processo di raccolta dati, garantendo la conformità al copyright e fornendo una soluzione economica e sicura dal punto di vista della privacy per la costruzione del dataset IR. Il risultato è un dataset su larga scala di un milione di immagini di alta qualità. Il nostro secondo contributo,
DreamClear, è un modello di ripristino delle immagini basato su DiT. Utilizza i prior generativi dei modelli di diffusione testo-immagine (T2I) e le robuste capacità percettive dei modelli di linguaggio multimodale di grandi dimensioni (MLLMs) per ottenere un ripristino fotorealistico. Per potenziare l'adattabilità del modello a diverse degradazioni del mondo reale, introduciamo il Mixture of Adaptive Modulator (MoAM).
Utilizza i prior di degradazione a livello di token per integrare dinamicamente vari esperti di ripristino, espandendo così la gamma di degradazioni che il modello può affrontare. I nostri esaurienti esperimenti confermano le prestazioni superiori di DreamClear, sottolineando l'efficacia della nostra strategia duale per il ripristino delle immagini del mondo reale. Codice e modelli pre-addestrati saranno disponibili su:
https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant
challenges due to the lack of high-capacity models and comprehensive datasets.
To tackle these issues, we present a dual strategy: GenIR, an innovative data
curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer
(DiT)-based image restoration model. GenIR, our pioneering contribution, is a
dual-prompt learning pipeline that overcomes the limitations of existing
datasets, which typically comprise only a few thousand images and thus offer
limited generalizability for larger models. GenIR streamlines the process into
three stages: image-text pair construction, dual-prompt based fine-tuning, and
data generation & filtering. This approach circumvents the laborious data
crawling process, ensuring copyright compliance and providing a cost-effective,
privacy-safe solution for IR dataset construction. The result is a large-scale
dataset of one million high-quality images. Our second contribution,
DreamClear, is a DiT-based image restoration model. It utilizes the generative
priors of text-to-image (T2I) diffusion models and the robust perceptual
capabilities of multi-modal large language models (MLLMs) to achieve
photorealistic restoration. To boost the model's adaptability to diverse
real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM).
It employs token-wise degradation priors to dynamically integrate various
restoration experts, thereby expanding the range of degradations the model can
address. Our exhaustive experiments confirm DreamClear's superior performance,
underlining the efficacy of our dual strategy for real-world image restoration.
Code and pre-trained models will be available at:
https://github.com/shallowdream204/DreamClear.Summary
AI-Generated Summary