DreamClear: Hoogcapacitaire beeldherstelling in de echte wereld met privacyveilige datasetcuratie
DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation
October 24, 2024
Auteurs: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI
Samenvatting
Beeldherstel (IR) in realistische scenario's vormt aanzienlijke uitdagingen door het gebrek aan modellen met een hoge capaciteit en uitgebreide datasets. Om deze problemen aan te pakken, presenteren we een dubbele strategie: GenIR, een innovatieve gegevenscuratiepijplijn, en DreamClear, een geavanceerd Diffusion Transformer (DiT)-gebaseerd beeldherstelmodel. GenIR, onze baanbrekende bijdrage, is een dubbele-leerpijplijn die de beperkingen van bestaande datasets overwint, die doorgaans slechts uit enkele duizenden afbeeldingen bestaan en daardoor beperkte generaliseerbaarheid bieden voor grotere modellen. GenIR stroomlijnt het proces in drie fasen: constructie van beeld-tekstparen, fijnafstemming op basis van dubbele prompts, en gegevensgeneratie en -filtering. Deze aanpak omzeilt het arbeidsintensieve proces van gegevensverzameling, zorgt voor naleving van het auteursrecht en biedt een kosteneffectieve, privacyveilige oplossing voor de constructie van IR-datasets. Het resultaat is een grootschalige dataset van één miljoen hoogwaardige afbeeldingen. Onze tweede bijdrage, DreamClear, is een op DiT gebaseerd beeldherstelmodel. Het maakt gebruik van de generatieve prioriteiten van tekst-naar-beeld (T2I) diffusiemodellen en de robuuste perceptuele mogelijkheden van multimodale grote taalmodellen (MLLM's) om fotorealistisch herstel te bereiken. Om de aanpasbaarheid van het model aan diverse realistische degradaties te vergroten, introduceren we de Mixture of Adaptive Modulator (MoAM). Het maakt gebruik van token-gebaseerde degradatieprioriteiten om dynamisch verschillende herstelspecialisten te integreren, waardoor het bereik van de degradaties die het model kan aanpakken wordt vergroot. Onze uitgebreide experimenten bevestigen de superieure prestaties van DreamClear, waarbij de doeltreffendheid van onze dubbele strategie voor beeldherstel in realistische scenario's wordt benadrukt. Code en vooraf getrainde modellen zijn beschikbaar op: https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant
challenges due to the lack of high-capacity models and comprehensive datasets.
To tackle these issues, we present a dual strategy: GenIR, an innovative data
curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer
(DiT)-based image restoration model. GenIR, our pioneering contribution, is a
dual-prompt learning pipeline that overcomes the limitations of existing
datasets, which typically comprise only a few thousand images and thus offer
limited generalizability for larger models. GenIR streamlines the process into
three stages: image-text pair construction, dual-prompt based fine-tuning, and
data generation & filtering. This approach circumvents the laborious data
crawling process, ensuring copyright compliance and providing a cost-effective,
privacy-safe solution for IR dataset construction. The result is a large-scale
dataset of one million high-quality images. Our second contribution,
DreamClear, is a DiT-based image restoration model. It utilizes the generative
priors of text-to-image (T2I) diffusion models and the robust perceptual
capabilities of multi-modal large language models (MLLMs) to achieve
photorealistic restoration. To boost the model's adaptability to diverse
real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM).
It employs token-wise degradation priors to dynamically integrate various
restoration experts, thereby expanding the range of degradations the model can
address. Our exhaustive experiments confirm DreamClear's superior performance,
underlining the efficacy of our dual strategy for real-world image restoration.
Code and pre-trained models will be available at:
https://github.com/shallowdream204/DreamClear.Summary
AI-Generated Summary