SeedVR: Semeando o Infinito no Transformador de Difusão Rumo à Restauração Genérica de Vídeo

SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

January 2, 2025
Autores: Jianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang
cs.AI

Resumo

A restauração de vídeo apresenta desafios não triviais na manutenção da fidelidade ao mesmo tempo que recupera detalhes temporalmente consistentes de degradações desconhecidas na natureza. Apesar dos avanços recentes na restauração baseada em difusão, esses métodos frequentemente enfrentam limitações na capacidade de geração e eficiência de amostragem. Neste trabalho, apresentamos o SeedVR, um transformador de difusão projetado para lidar com a restauração de vídeo do mundo real com comprimentos e resoluções arbitrárias. O design central do SeedVR reside na atenção da janela deslocada que facilita a restauração eficaz em sequências de vídeo longas. O SeedVR ainda suporta janelas de tamanhos variáveis próximas à fronteira das dimensões espaciais e temporais, superando as restrições de resolução da atenção da janela tradicional. Equipado com práticas contemporâneas, incluindo autoencoder de vídeo causal, treinamento misto de imagem e vídeo e treinamento progressivo, o SeedVR alcança um desempenho altamente competitivo em benchmarks sintéticos e do mundo real, bem como em vídeos gerados por IA. Experimentos extensivos demonstram a superioridade do SeedVR sobre os métodos existentes para a restauração genérica de vídeo.
English
Video restoration poses non-trivial challenges in maintaining fidelity while recovering temporally consistent details from unknown degradations in the wild. Despite recent advances in diffusion-based restoration, these methods often face limitations in generation capability and sampling efficiency. In this work, we present SeedVR, a diffusion transformer designed to handle real-world video restoration with arbitrary length and resolution. The core design of SeedVR lies in the shifted window attention that facilitates effective restoration on long video sequences. SeedVR further supports variable-sized windows near the boundary of both spatial and temporal dimensions, overcoming the resolution constraints of traditional window attention. Equipped with contemporary practices, including causal video autoencoder, mixed image and video training, and progressive training, SeedVR achieves highly-competitive performance on both synthetic and real-world benchmarks, as well as AI-generated videos. Extensive experiments demonstrate SeedVR's superiority over existing methods for generic video restoration.

Summary

AI-Generated Summary

PDF112January 3, 2025