STAR: テキストからビデオモデルへの空間的時間的拡張を用いた実世界ビデオの超解像度
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
January 6, 2025
著者: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai
cs.AI
要旨
画像拡散モデルは、GANベースの手法における過度な平滑化の問題に対処するために、実世界のビデオ超解像度に適応されてきました。ただし、これらのモデルは静止画像でトレーニングされているため、時間的一貫性を維持するのに苦労しており、時間的ダイナミクスを効果的に捉える能力が制限されています。テキストからビデオ(T2V)モデルをビデオ超解像度に統合して時間モデリングを改善することは容易です。ただし、2つの主要な課題が残っています。実世界のシナリオにおける複雑な劣化によって導入されるアーティファクトと、強力なT2Vモデル(例:CogVideoX-5B)の強い生成能力による忠実度の損なわれた点です。修復されたビデオの空間的・時間的品質を向上させるために、私たちは\name(実世界のビデオ超解像度のためのT2Vモデルを活用した空間的・時間的拡張)という新しいアプローチを導入します。これにより、現実的な空間の詳細と堅牢な時間的一貫性が実現されます。具体的には、グローバルアテンションブロックの前にローカル情報強化モジュール(LIEM)を導入して、局所の詳細を豊かにし、劣化アーティファクトを軽減します。さらに、異なる拡散ステップで異なる周波数成分に焦点を当てるようにモデルを誘導するダイナミック周波数(DF)損失を提案します。包括的な実験により、\name が合成および実世界のデータセットの両方で最先端の手法を上回ることが示されました。
English
Image diffusion models have been adapted for real-world video
super-resolution to tackle over-smoothing issues in GAN-based methods. However,
these models struggle to maintain temporal consistency, as they are trained on
static images, limiting their ability to capture temporal dynamics effectively.
Integrating text-to-video (T2V) models into video super-resolution for improved
temporal modeling is straightforward. However, two key challenges remain:
artifacts introduced by complex degradations in real-world scenarios, and
compromised fidelity due to the strong generative capacity of powerful T2V
models (e.g., CogVideoX-5B). To enhance the spatio-temporal quality of
restored videos, we introduce~\name
(Spatial-Temporal Augmentation with T2V models for
Real-world video super-resolution), a novel approach that leverages
T2V models for real-world video super-resolution, achieving realistic spatial
details and robust temporal consistency. Specifically, we introduce a Local
Information Enhancement Module (LIEM) before the global attention block to
enrich local details and mitigate degradation artifacts. Moreover, we propose a
Dynamic Frequency (DF) Loss to reinforce fidelity, guiding the model to focus
on different frequency components across diffusion steps. Extensive experiments
demonstrate~\name~outperforms state-of-the-art methods on both
synthetic and real-world datasets.Summary
AI-Generated Summary