STAR: Aumento Spazio-Temporale con Modelli Testo-Video per la Super-Risoluzione Video nel Mondo Reale
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
January 6, 2025
Autori: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI
Abstract
I modelli di diffusione delle immagini sono stati adattati per la super-risoluzione video nel mondo reale al fine di affrontare i problemi di eccessiva levigatura nei metodi basati su GAN. Tuttavia, questi modelli faticano a mantenere coerenza temporale, poiché vengono addestrati su immagini statiche, limitando la loro capacità di catturare dinamiche temporali in modo efficace. Integrare modelli di testo-a-video (T2V) nella super-risoluzione video per un miglioramento della modellazione temporale è diretto. Tuttavia, rimangono due sfide chiave: artefatti introdotti da degradazioni complesse in scenari del mondo reale e compromissione della fedeltà a causa della forte capacità generativa di potenti modelli T2V (ad esempio, CogVideoX-5B). Per migliorare la qualità spazio-temporale dei video ripristinati, presentiamo \textit{STARS} (Aumento Spazio-Temporale con modelli T2V per la super-risoluzione video nel mondo reale), un approccio innovativo che sfrutta i modelli T2V per la super-risoluzione video nel mondo reale, ottenendo dettagli spaziali realistici e una robusta coerenza temporale. In particolare, introduciamo un Modulo di Potenziamento delle Informazioni Locali (LIEM) prima del blocco di attenzione globale per arricchire i dettagli locali e mitigare gli artefatti di degradazione. Inoltre, proponiamo una Perdita di Frequenza Dinamica (DF) per rafforzare la fedeltà, guidando il modello a concentrarsi su diversi componenti di frequenza attraverso i passaggi di diffusione. Estesi esperimenti dimostrano che \textit{STARS} supera i metodi all'avanguardia su entrambi i dataset sintetici e del mondo reale.
English
Image diffusion models have been adapted for real-world video
super-resolution to tackle over-smoothing issues in GAN-based methods. However,
these models struggle to maintain temporal consistency, as they are trained on
static images, limiting their ability to capture temporal dynamics effectively.
Integrating text-to-video (T2V) models into video super-resolution for improved
temporal modeling is straightforward. However, two key challenges remain:
artifacts introduced by complex degradations in real-world scenarios, and
compromised fidelity due to the strong generative capacity of powerful T2V
models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of
restored videos, we introduce~\name
(Spatial-Temporal Augmentation with T2V models for
Real-world video super-resolution), a novel approach that leverages
T2V models for real-world video super-resolution, achieving realistic spatial
details and robust temporal consistency. Specifically, we introduce a Local
Information Enhancement Module (LIEM) before the global attention block to
enrich local details and mitigate degradation artifacts. Moreover, we propose a
Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus
on different frequency components across diffusion steps. Extensive experiments
demonstrate~\name~outperforms state-of-the-art methods on both
synthetic and real-world datasets.Summary
AI-Generated Summary