SeedVR: 拡散トランスフォーマーにおける無限のシードを播種して、汎用ビデオの復元に向けて
SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
January 2, 2025
著者: Jianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang
cs.AI
要旨
ビデオの修復は、未知の劣化から時間的に一貫した詳細を回復しながら忠実性を維持するという非トリビアルな課題を抱えています。拡散に基づく修復の最近の進歩にもかかわらず、これらの方法はしばしば生成能力とサンプリング効率に制限を受けます。本研究では、SeedVRと呼ばれる拡散トランスフォーマーを提案し、任意の長さと解像度のリアルワールドのビデオ修復を処理するよう設計されています。SeedVRの中核設計は、効果的な修復を可能にするシフトされたウィンドウアテンションにあります。SeedVRは、従来のウィンドウアテンションの解像度制約を克服するために、空間および時間の次元の両方の境界近くに可変サイズのウィンドウをサポートしています。因果関係のあるビデオオートエンコーダー、混合画像とビデオのトレーニング、およびプログレッシブトレーニングを含む現代的な手法を備えたSeedVRは、合成およびリアルワールドのベンチマーク、およびAI生成のビデオで非常に競争力のあるパフォーマンスを達成しています。包括的な実験は、SeedVRが一般的なビデオ修復の既存の方法に対して優位性を示しています。
English
Video restoration poses non-trivial challenges in maintaining fidelity while
recovering temporally consistent details from unknown degradations in the wild.
Despite recent advances in diffusion-based restoration, these methods often
face limitations in generation capability and sampling efficiency. In this
work, we present SeedVR, a diffusion transformer designed to handle real-world
video restoration with arbitrary length and resolution. The core design of
SeedVR lies in the shifted window attention that facilitates effective
restoration on long video sequences. SeedVR further supports variable-sized
windows near the boundary of both spatial and temporal dimensions, overcoming
the resolution constraints of traditional window attention. Equipped with
contemporary practices, including causal video autoencoder, mixed image and
video training, and progressive training, SeedVR achieves highly-competitive
performance on both synthetic and real-world benchmarks, as well as
AI-generated videos. Extensive experiments demonstrate SeedVR's superiority
over existing methods for generic video restoration.Summary
AI-Generated Summary