VidTok: Um Tokenizador de Vídeo Versátil e de Código Aberto

Resumo

A codificação de conteúdo de vídeo em tokens latentes compactos tornou-se um passo fundamental na geração e compreensão de vídeos, impulsionada pela necessidade de lidar com a redundância inerente nas representações a nível de pixel. Consequentemente, há uma demanda crescente por tokenizadores de vídeo de alto desempenho e de código aberto, à medida que a pesquisa centrada em vídeo ganha destaque. Apresentamos o VidTok, um tokenizador de vídeo versátil que oferece desempenho de ponta tanto em tokenizações contínuas quanto discretas. O VidTok incorpora vários avanços-chave em relação às abordagens existentes: 1) arquitetura do modelo, como camadas convolucionais e módulos de upsampling/downsampling; 2) para lidar com a instabilidade de treinamento e colapso do livro de códigos comumente associados à Quantização Vetorial Convencional (VQ), integramos a Quantização Escalar Finita (FSQ) na tokenização de vídeo discreta; 3) estratégias de treinamento aprimoradas, incluindo um processo de treinamento em duas etapas e o uso de taxas de quadros reduzidas. Ao integrar esses avanços, o VidTok alcança melhorias substanciais em relação aos métodos existentes, demonstrando desempenho superior em várias métricas, incluindo PSNR, SSIM, LPIPS e FVD, sob configurações de avaliação padronizadas.

English

Encoding video content into compact latent tokens has become a fundamental step in video generation and understanding, driven by the need to address the inherent redundancy in pixel-level representations. Consequently, there is a growing demand for high-performance, open-source video tokenizers as video-centric research gains prominence. We introduce VidTok, a versatile video tokenizer that delivers state-of-the-art performance in both continuous and discrete tokenizations. VidTok incorporates several key advancements over existing approaches: 1) model architecture such as convolutional layers and up/downsampling modules; 2) to address the training instability and codebook collapse commonly associated with conventional Vector Quantization (VQ), we integrate Finite Scalar Quantization (FSQ) into discrete video tokenization; 3) improved training strategies, including a two-stage training process and the use of reduced frame rates. By integrating these advancements, VidTok achieves substantial improvements over existing methods, demonstrating superior performance across multiple metrics, including PSNR, SSIM, LPIPS, and FVD, under standardized evaluation settings.

VidTok: Um Tokenizador de Vídeo Versátil e de Código Aberto

VidTok: A Versatile and Open-Source Video Tokenizer

Resumo

Summary

Support