STAR: Aumento Spazio-Temporale con Modelli Testo-Video per la Super-Risoluzione Video nel Mondo Reale

Abstract

I modelli di diffusione delle immagini sono stati adattati per la super-risoluzione video nel mondo reale al fine di affrontare i problemi di eccessiva levigatura nei metodi basati su GAN. Tuttavia, questi modelli faticano a mantenere coerenza temporale, poiché vengono addestrati su immagini statiche, limitando la loro capacità di catturare dinamiche temporali in modo efficace. Integrare modelli di testo-a-video (T2V) nella super-risoluzione video per un miglioramento della modellazione temporale è diretto. Tuttavia, rimangono due sfide chiave: artefatti introdotti da degradazioni complesse in scenari del mondo reale e compromissione della fedeltà a causa della forte capacità generativa di potenti modelli T2V (ad esempio, CogVideoX-5B). Per migliorare la qualità spazio-temporale dei video ripristinati, presentiamo \textit{STARS} (Aumento Spazio-Temporale con modelli T2V per la super-risoluzione video nel mondo reale), un approccio innovativo che sfrutta i modelli T2V per la super-risoluzione video nel mondo reale, ottenendo dettagli spaziali realistici e una robusta coerenza temporale. In particolare, introduciamo un Modulo di Potenziamento delle Informazioni Locali (LIEM) prima del blocco di attenzione globale per arricchire i dettagli locali e mitigare gli artefatti di degradazione. Inoltre, proponiamo una Perdita di Frequenza Dinamica (DF) per rafforzare la fedeltà, guidando il modello a concentrarsi su diversi componenti di frequenza attraverso i passaggi di diffusione. Estesi esperimenti dimostrano che \textit{STARS} supera i metodi all'avanguardia su entrambi i dataset sintetici e del mondo reale.

English

Image diffusion models have been adapted for real-world video super-resolution to tackle over-smoothing issues in GAN-based methods. However, these models struggle to maintain temporal consistency, as they are trained on static images, limiting their ability to capture temporal dynamics effectively. Integrating text-to-video (T2V) models into video super-resolution for improved temporal modeling is straightforward. However, two key challenges remain: artifacts introduced by complex degradations in real-world scenarios, and compromised fidelity due to the strong generative capacity of powerful T2V models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of restored videos, we introduce~\name (Spatial-Temporal Augmentation with T2V models for Real-world video super-resolution), a novel approach that leverages T2V models for real-world video super-resolution, achieving realistic spatial details and robust temporal consistency. Specifically, we introduce a Local Information Enhancement Module (LIEM) before the global attention block to enrich local details and mitigate degradation artifacts. Moreover, we propose a Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus on different frequency components across diffusion steps. Extensive experiments demonstrate~\name~outperforms state-of-the-art methods on both synthetic and real-world datasets.

STAR: Aumento Spazio-Temporale con Modelli Testo-Video per la Super-Risoluzione Video nel Mondo Reale

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Abstract

Support