ZipIR: Trasformatore a Diffusione con Piramide Latente per il Restauro di Immagini ad Alta Risoluzione

Abstract

I recenti progressi nei modelli generativi hanno notevolmente migliorato le capacità di restauro delle immagini, in particolare attraverso potenti modelli di diffusione che offrono un recupero straordinario dei dettagli semantici e della fedeltà locale. Tuttavia, l'implementazione di questi modelli a risoluzioni ultra-elevate si scontra con un compromesso critico tra qualità ed efficienza a causa delle esigenze computazionali dei meccanismi di attenzione a lungo raggio. Per affrontare questo problema, introduciamo ZipIR, un nuovo framework che migliora l'efficienza, la scalabilità e la modellazione a lungo raggio per il restauro di immagini ad alta risoluzione. ZipIR utilizza una rappresentazione latente altamente compressa che riduce l'immagine di 32 volte, riducendo efficacemente il numero di token spaziali e consentendo l'uso di modelli ad alta capacità come il Diffusion Transformer (DiT). A tal fine, proponiamo un design Latent Pyramid VAE (LP-VAE) che struttura lo spazio latente in sottobande per facilitare l'addestramento della diffusione. Addestrato su immagini complete fino a risoluzione 2K, ZipIR supera i metodi basati sulla diffusione esistenti, offrendo una velocità e una qualità senza pari nel restauro di immagini ad alta risoluzione da input gravemente degradati.

English

Recent progress in generative models has significantly improved image restoration capabilities, particularly through powerful diffusion models that offer remarkable recovery of semantic details and local fidelity. However, deploying these models at ultra-high resolutions faces a critical trade-off between quality and efficiency due to the computational demands of long-range attention mechanisms. To address this, we introduce ZipIR, a novel framework that enhances efficiency, scalability, and long-range modeling for high-res image restoration. ZipIR employs a highly compressed latent representation that compresses image 32x, effectively reducing the number of spatial tokens, and enabling the use of high-capacity models like the Diffusion Transformer (DiT). Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that structures the latent space into sub-bands to ease diffusion training. Trained on full images up to 2K resolution, ZipIR surpasses existing diffusion-based methods, offering unmatched speed and quality in restoring high-resolution images from severely degraded inputs.

ZipIR: Trasformatore a Diffusione con Piramide Latente per il Restauro di Immagini ad Alta Risoluzione

ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Abstract

Summary

Support

Support