SeedVR: 일반적인 비디오 복원을 위한 확산 트랜스포머에 무한성을 심는다.
SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration
January 2, 2025
저자: Jianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang
cs.AI
초록
비디오 복원은 야생에서 발생한 알 수 없는 훼손으로부터 시간적으로 일관된 세부 정보를 복구하면서 충실성을 유지하는 데 실제로 어려운 도전을 제기합니다. 확산 기반 복원의 최근 발전에도 불구하고, 이러한 방법은 종종 생성 능력과 샘플링 효율성에서 제한을 겪습니다. 본 연구에서는 임의의 길이와 해상도를 처리하기 위해 설계된 확산 트랜스포머인 SeedVR을 제안합니다. SeedVR의 핵심 설계는 긴 비디오 시퀀스에서 효과적인 복원을 용이하게 하는 이동 창 주의에 있습니다. SeedVR은 전통적인 창 주의의 해상도 제약을 극복하기 위해 공간 및 시간 차원의 경계 근처에서 변수 크기의 창을 지원합니다. 인과적 비디오 오토인코더, 혼합 이미지 및 비디오 훈련, 그리고 점진적 훈련을 포함한 현대적인 방법을 갖춘 SeedVR은 합성 및 실제 벤치마크뿐만 아니라 AI 생성 비디오에서도 매우 경쟁력 있는 성능을 달성합니다. 광범위한 실험을 통해 SeedVR이 일반적인 비디오 복원을 위한 기존 방법들보다 우수함을 입증합니다.
English
Video restoration poses non-trivial challenges in maintaining fidelity while
recovering temporally consistent details from unknown degradations in the wild.
Despite recent advances in diffusion-based restoration, these methods often
face limitations in generation capability and sampling efficiency. In this
work, we present SeedVR, a diffusion transformer designed to handle real-world
video restoration with arbitrary length and resolution. The core design of
SeedVR lies in the shifted window attention that facilitates effective
restoration on long video sequences. SeedVR further supports variable-sized
windows near the boundary of both spatial and temporal dimensions, overcoming
the resolution constraints of traditional window attention. Equipped with
contemporary practices, including causal video autoencoder, mixed image and
video training, and progressive training, SeedVR achieves highly-competitive
performance on both synthetic and real-world benchmarks, as well as
AI-generated videos. Extensive experiments demonstrate SeedVR's superiority
over existing methods for generic video restoration.Summary
AI-Generated Summary