STAR: 실제 세계 비디오 초해상도를 위한 텍스트에서 비디오 모델로의 공간-시간 증강
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
January 6, 2025
저자: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI
초록
이미지 확산 모델은 GAN 기반 방법에서 발생하는 과도한 평활화 문제를 해결하기 위해 실제 비디오 초해상도에 적응되었습니다. 그러나 이러한 모델은 정적 이미지에서 훈련되어 시간적 일관성을 유지하는 데 어려움을 겪으며 시간적 동역학을 효과적으로 포착하는 능력이 제한됩니다. 텍스트-비디오(T2V) 모델을 비디오 초해상도에 통합하여 개선된 시간적 모델링을 달성하는 것은 간단합니다. 그러나 실제 환경에서의 복잡한 약화로 인한 아티팩트와 강력한 T2V 모델(e.g., CogVideoX-5B)의 강력한 생성 능력으로 인한 희생된 충실도라는 두 가지 주요 도전 과제가 남아 있습니다. 복원된 비디오의 공간-시간적 품질을 향상시키기 위해, 우리는 실제 비디오 초해상도를 위해 T2V 모델을 활용하는 새로운 방법인 STARS (Spatial-Temporal Augmentation with T2V models for Real-world video super-resolution)를 소개합니다. 이 방법은 현실적인 공간 세부 정보와 견고한 시간적 일관성을 달성합니다. 구체적으로, 우리는 전역 주의 블록 이전에 지역 세부 정보 강화 모듈(LIEM)을 도입하여 지역 세부 정보를 풍부하게 하고 약화 아티팩트를 완화합니다. 또한, 확산 단계별로 다양한 주파수 구성 요소에 초점을 맞추도록 모델을 안내하여 충실도를 강화하는 Dynamic Frequency (DF) Loss를 제안합니다. 광범위한 실험 결과 STARS가 합성 및 실제 데이터셋 모두에서 최첨단 방법을 능가한다는 것을 입증합니다.
English
Image diffusion models have been adapted for real-world video
super-resolution to tackle over-smoothing issues in GAN-based methods. However,
these models struggle to maintain temporal consistency, as they are trained on
static images, limiting their ability to capture temporal dynamics effectively.
Integrating text-to-video (T2V) models into video super-resolution for improved
temporal modeling is straightforward. However, two key challenges remain:
artifacts introduced by complex degradations in real-world scenarios, and
compromised fidelity due to the strong generative capacity of powerful T2V
models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of
restored videos, we introduce~\name
(Spatial-Temporal Augmentation with T2V models for
Real-world video super-resolution), a novel approach that leverages
T2V models for real-world video super-resolution, achieving realistic spatial
details and robust temporal consistency. Specifically, we introduce a Local
Information Enhancement Module (LIEM) before the global attention block to
enrich local details and mitigate degradation artifacts. Moreover, we propose a
Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus
on different frequency components across diffusion steps. Extensive experiments
demonstrate~\name~outperforms state-of-the-art methods on both
synthetic and real-world datasets.Summary
AI-Generated Summary