STAR: Augmentação Espaço-Temporal com Modelos de Texto-para-Vídeo para Super-Resolução de Vídeo no Mundo Real

Resumo

Modelos de difusão de imagens foram adaptados para aprimorar a super resolução de vídeos do mundo real, a fim de lidar com problemas de suavização excessiva em métodos baseados em GAN. No entanto, esses modelos enfrentam dificuldades em manter consistência temporal, pois são treinados em imagens estáticas, o que limita sua capacidade de capturar dinâmicas temporais de forma eficaz. A integração de modelos texto-para-vídeo (T2V) na super resolução de vídeos para melhorar a modelagem temporal é direta. No entanto, dois desafios principais permanecem: artefatos introduzidos por degradações complexas em cenários do mundo real e fidelidade comprometida devido à forte capacidade generativa de modelos T2V poderosos (por exemplo, CogVideoX-5B). Para aprimorar a qualidade espaço-temporal de vídeos restaurados, apresentamos \textit{Nome do Método} (Aumento Espaço-Temporal com Modelos T2V para Super Resolução de Vídeos do Mundo Real), uma abordagem inovadora que aproveita modelos T2V para super resolução de vídeos do mundo real, alcançando detalhes espaciais realistas e consistência temporal robusta. Especificamente, introduzimos um Módulo de Aprimoramento de Informações Locais (LIEM) antes do bloco de atenção global para enriquecer detalhes locais e mitigar artefatos de degradação. Além disso, propomos uma Perda de Frequência Dinâmica (DF) para reforçar a fidelidade, orientando o modelo a focar em diferentes componentes de frequência ao longo das etapas de difusão. Experimentos extensos demonstram que \textit{Nome do Método} supera os métodos de ponta em conjuntos de dados sintéticos e do mundo real.

English

Image diffusion models have been adapted for real-world video super-resolution to tackle over-smoothing issues in GAN-based methods. However, these models struggle to maintain temporal consistency, as they are trained on static images, limiting their ability to capture temporal dynamics effectively. Integrating text-to-video (T2V) models into video super-resolution for improved temporal modeling is straightforward. However, two key challenges remain: artifacts introduced by complex degradations in real-world scenarios, and compromised fidelity due to the strong generative capacity of powerful T2V models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of restored videos, we introduce~\name (Spatial-Temporal Augmentation with T2V models for Real-world video super-resolution), a novel approach that leverages T2V models for real-world video super-resolution, achieving realistic spatial details and robust temporal consistency. Specifically, we introduce a Local Information Enhancement Module (LIEM) before the global attention block to enrich local details and mitigate degradation artifacts. Moreover, we propose a Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus on different frequency components across diffusion steps. Extensive experiments demonstrate~\name~outperforms state-of-the-art methods on both synthetic and real-world datasets.

STAR: Augmentação Espaço-Temporal com Modelos de Texto-para-Vídeo para Super-Resolução de Vídeo no Mundo Real

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Resumo

Summary

Support