SeedVR: Seminare l'Infinito nel Diffusion Transformer per un Ripristino Video Generico

Abstract

Il ripristino video pone sfide non banali nel mantenere la fedeltà durante il recupero dei dettagli temporalmente consistenti da degradazioni sconosciute in ambienti reali. Nonostante i recenti progressi nel ripristino basato sulla diffusione, questi metodi spesso si trovano ad affrontare limitazioni nella capacità generativa e nell'efficienza del campionamento. In questo lavoro, presentiamo SeedVR, un trasformatore a diffusione progettato per gestire il ripristino video del mondo reale con lunghezza e risoluzione arbitrarie. Il design principale di SeedVR risiede nell'attenzione a finestra spostata che facilita un ripristino efficace su lunghe sequenze video. SeedVR supporta inoltre finestre di dimensioni variabili vicino al confine delle dimensioni spaziali e temporali, superando i vincoli di risoluzione dell'attenzione a finestra tradizionale. Dotato di pratiche contemporanee, tra cui autoencoder video causale, addestramento misto di immagini e video e addestramento progressivo, SeedVR raggiunge prestazioni altamente competitive sia su benchmark sintetici che reali, nonché video generati dall'IA. Estesi esperimenti dimostrano la superiorità di SeedVR rispetto ai metodi esistenti per il ripristino video generico.

English

Video restoration poses non-trivial challenges in maintaining fidelity while recovering temporally consistent details from unknown degradations in the wild. Despite recent advances in diffusion-based restoration, these methods often face limitations in generation capability and sampling efficiency. In this work, we present SeedVR, a diffusion transformer designed to handle real-world video restoration with arbitrary length and resolution. The core design of SeedVR lies in the shifted window attention that facilitates effective restoration on long video sequences. SeedVR further supports variable-sized windows near the boundary of both spatial and temporal dimensions, overcoming the resolution constraints of traditional window attention. Equipped with contemporary practices, including causal video autoencoder, mixed image and video training, and progressive training, SeedVR achieves highly-competitive performance on both synthetic and real-world benchmarks, as well as AI-generated videos. Extensive experiments demonstrate SeedVR's superiority over existing methods for generic video restoration.

SeedVR: Seminare l'Infinito nel Diffusion Transformer per un Ripristino Video Generico

SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

Abstract

Summary

Support