STAR: Augmentação Espaço-Temporal com Modelos de Texto-para-Vídeo para Super-Resolução de Vídeo no Mundo Real
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
January 6, 2025
Autores: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI
Resumo
Modelos de difusão de imagens foram adaptados para aprimorar a super resolução de vídeos do mundo real, a fim de lidar com problemas de suavização excessiva em métodos baseados em GAN. No entanto, esses modelos enfrentam dificuldades em manter consistência temporal, pois são treinados em imagens estáticas, o que limita sua capacidade de capturar dinâmicas temporais de forma eficaz. A integração de modelos texto-para-vídeo (T2V) na super resolução de vídeos para melhorar a modelagem temporal é direta. No entanto, dois desafios principais permanecem: artefatos introduzidos por degradações complexas em cenários do mundo real e fidelidade comprometida devido à forte capacidade generativa de modelos T2V poderosos (por exemplo, CogVideoX-5B). Para aprimorar a qualidade espaço-temporal de vídeos restaurados, apresentamos \textit{Nome do Método} (Aumento Espaço-Temporal com Modelos T2V para Super Resolução de Vídeos do Mundo Real), uma abordagem inovadora que aproveita modelos T2V para super resolução de vídeos do mundo real, alcançando detalhes espaciais realistas e consistência temporal robusta. Especificamente, introduzimos um Módulo de Aprimoramento de Informações Locais (LIEM) antes do bloco de atenção global para enriquecer detalhes locais e mitigar artefatos de degradação. Além disso, propomos uma Perda de Frequência Dinâmica (DF) para reforçar a fidelidade, orientando o modelo a focar em diferentes componentes de frequência ao longo das etapas de difusão. Experimentos extensos demonstram que \textit{Nome do Método} supera os métodos de ponta em conjuntos de dados sintéticos e do mundo real.
English
Image diffusion models have been adapted for real-world video
super-resolution to tackle over-smoothing issues in GAN-based methods. However,
these models struggle to maintain temporal consistency, as they are trained on
static images, limiting their ability to capture temporal dynamics effectively.
Integrating text-to-video (T2V) models into video super-resolution for improved
temporal modeling is straightforward. However, two key challenges remain:
artifacts introduced by complex degradations in real-world scenarios, and
compromised fidelity due to the strong generative capacity of powerful T2V
models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of
restored videos, we introduce~\name
(Spatial-Temporal Augmentation with T2V models for
Real-world video super-resolution), a novel approach that leverages
T2V models for real-world video super-resolution, achieving realistic spatial
details and robust temporal consistency. Specifically, we introduce a Local
Information Enhancement Module (LIEM) before the global attention block to
enrich local details and mitigate degradation artifacts. Moreover, we propose a
Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus
on different frequency components across diffusion steps. Extensive experiments
demonstrate~\name~outperforms state-of-the-art methods on both
synthetic and real-world datasets.Summary
AI-Generated Summary