DreamClear: Hoogcapacitaire beeldherstelling in de echte wereld met privacyveilige datasetcuratie

DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation

October 24, 2024
Auteurs: Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Xiaotian Han, Zhengyu Chen, Quanzeng You, Hongxia Yang
cs.AI

Samenvatting

Beeldherstel (IR) in realistische scenario's vormt aanzienlijke uitdagingen door het gebrek aan modellen met een hoge capaciteit en uitgebreide datasets. Om deze problemen aan te pakken, presenteren we een dubbele strategie: GenIR, een innovatieve gegevenscuratiepijplijn, en DreamClear, een geavanceerd Diffusion Transformer (DiT)-gebaseerd beeldherstelmodel. GenIR, onze baanbrekende bijdrage, is een dubbele-leerpijplijn die de beperkingen van bestaande datasets overwint, die doorgaans slechts uit enkele duizenden afbeeldingen bestaan en daardoor beperkte generaliseerbaarheid bieden voor grotere modellen. GenIR stroomlijnt het proces in drie fasen: constructie van beeld-tekstparen, fijnafstemming op basis van dubbele prompts, en gegevensgeneratie en -filtering. Deze aanpak omzeilt het arbeidsintensieve proces van gegevensverzameling, zorgt voor naleving van het auteursrecht en biedt een kosteneffectieve, privacyveilige oplossing voor de constructie van IR-datasets. Het resultaat is een grootschalige dataset van één miljoen hoogwaardige afbeeldingen. Onze tweede bijdrage, DreamClear, is een op DiT gebaseerd beeldherstelmodel. Het maakt gebruik van de generatieve prioriteiten van tekst-naar-beeld (T2I) diffusiemodellen en de robuuste perceptuele mogelijkheden van multimodale grote taalmodellen (MLLM's) om fotorealistisch herstel te bereiken. Om de aanpasbaarheid van het model aan diverse realistische degradaties te vergroten, introduceren we de Mixture of Adaptive Modulator (MoAM). Het maakt gebruik van token-gebaseerde degradatieprioriteiten om dynamisch verschillende herstelspecialisten te integreren, waardoor het bereik van de degradaties die het model kan aanpakken wordt vergroot. Onze uitgebreide experimenten bevestigen de superieure prestaties van DreamClear, waarbij de doeltreffendheid van onze dubbele strategie voor beeldherstel in realistische scenario's wordt benadrukt. Code en vooraf getrainde modellen zijn beschikbaar op: https://github.com/shallowdream204/DreamClear.
English
Image restoration (IR) in real-world scenarios presents significant challenges due to the lack of high-capacity models and comprehensive datasets. To tackle these issues, we present a dual strategy: GenIR, an innovative data curation pipeline, and DreamClear, a cutting-edge Diffusion Transformer (DiT)-based image restoration model. GenIR, our pioneering contribution, is a dual-prompt learning pipeline that overcomes the limitations of existing datasets, which typically comprise only a few thousand images and thus offer limited generalizability for larger models. GenIR streamlines the process into three stages: image-text pair construction, dual-prompt based fine-tuning, and data generation & filtering. This approach circumvents the laborious data crawling process, ensuring copyright compliance and providing a cost-effective, privacy-safe solution for IR dataset construction. The result is a large-scale dataset of one million high-quality images. Our second contribution, DreamClear, is a DiT-based image restoration model. It utilizes the generative priors of text-to-image (T2I) diffusion models and the robust perceptual capabilities of multi-modal large language models (MLLMs) to achieve photorealistic restoration. To boost the model's adaptability to diverse real-world degradations, we introduce the Mixture of Adaptive Modulator (MoAM). It employs token-wise degradation priors to dynamically integrate various restoration experts, thereby expanding the range of degradations the model can address. Our exhaustive experiments confirm DreamClear's superior performance, underlining the efficacy of our dual strategy for real-world image restoration. Code and pre-trained models will be available at: https://github.com/shallowdream204/DreamClear.

Summary

AI-Generated Summary

PDF183November 16, 2024