ZipIR: Trasformatore a Diffusione con Piramide Latente per il Restauro di Immagini ad Alta Risoluzione
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration
April 11, 2025
Autori: Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo
cs.AI
Abstract
I recenti progressi nei modelli generativi hanno notevolmente migliorato le capacità di restauro delle immagini, in particolare attraverso potenti modelli di diffusione che offrono un recupero straordinario dei dettagli semantici e della fedeltà locale. Tuttavia, l'implementazione di questi modelli a risoluzioni ultra-elevate si scontra con un compromesso critico tra qualità ed efficienza a causa delle esigenze computazionali dei meccanismi di attenzione a lungo raggio. Per affrontare questo problema, introduciamo ZipIR, un nuovo framework che migliora l'efficienza, la scalabilità e la modellazione a lungo raggio per il restauro di immagini ad alta risoluzione. ZipIR utilizza una rappresentazione latente altamente compressa che riduce l'immagine di 32 volte, riducendo efficacemente il numero di token spaziali e consentendo l'uso di modelli ad alta capacità come il Diffusion Transformer (DiT). A tal fine, proponiamo un design Latent Pyramid VAE (LP-VAE) che struttura lo spazio latente in sottobande per facilitare l'addestramento della diffusione. Addestrato su immagini complete fino a risoluzione 2K, ZipIR supera i metodi basati sulla diffusione esistenti, offrendo una velocità e una qualità senza pari nel restauro di immagini ad alta risoluzione da input gravemente degradati.
English
Recent progress in generative models has significantly improved image
restoration capabilities, particularly through powerful diffusion models that
offer remarkable recovery of semantic details and local fidelity. However,
deploying these models at ultra-high resolutions faces a critical trade-off
between quality and efficiency due to the computational demands of long-range
attention mechanisms. To address this, we introduce ZipIR, a novel framework
that enhances efficiency, scalability, and long-range modeling for high-res
image restoration. ZipIR employs a highly compressed latent representation that
compresses image 32x, effectively reducing the number of spatial tokens, and
enabling the use of high-capacity models like the Diffusion Transformer (DiT).
Toward this goal, we propose a Latent Pyramid VAE (LP-VAE) design that
structures the latent space into sub-bands to ease diffusion training. Trained
on full images up to 2K resolution, ZipIR surpasses existing diffusion-based
methods, offering unmatched speed and quality in restoring high-resolution
images from severely degraded inputs.Summary
AI-Generated Summary