VidTok: Um Tokenizador de Vídeo Versátil e de Código Aberto
VidTok: A Versatile and Open-Source Video Tokenizer
December 17, 2024
Autores: Anni Tang, Tianyu He, Junliang Guo, Xinle Cheng, Li Song, Jiang Bian
cs.AI
Resumo
A codificação de conteúdo de vídeo em tokens latentes compactos tornou-se um passo fundamental na geração e compreensão de vídeos, impulsionada pela necessidade de lidar com a redundância inerente nas representações a nível de pixel. Consequentemente, há uma demanda crescente por tokenizadores de vídeo de alto desempenho e de código aberto, à medida que a pesquisa centrada em vídeo ganha destaque. Apresentamos o VidTok, um tokenizador de vídeo versátil que oferece desempenho de ponta tanto em tokenizações contínuas quanto discretas. O VidTok incorpora vários avanços-chave em relação às abordagens existentes: 1) arquitetura do modelo, como camadas convolucionais e módulos de upsampling/downsampling; 2) para lidar com a instabilidade de treinamento e colapso do livro de códigos comumente associados à Quantização Vetorial Convencional (VQ), integramos a Quantização Escalar Finita (FSQ) na tokenização de vídeo discreta; 3) estratégias de treinamento aprimoradas, incluindo um processo de treinamento em duas etapas e o uso de taxas de quadros reduzidas. Ao integrar esses avanços, o VidTok alcança melhorias substanciais em relação aos métodos existentes, demonstrando desempenho superior em várias métricas, incluindo PSNR, SSIM, LPIPS e FVD, sob configurações de avaliação padronizadas.
English
Encoding video content into compact latent tokens has become a fundamental
step in video generation and understanding, driven by the need to address the
inherent redundancy in pixel-level representations. Consequently, there is a
growing demand for high-performance, open-source video tokenizers as
video-centric research gains prominence. We introduce VidTok, a versatile video
tokenizer that delivers state-of-the-art performance in both continuous and
discrete tokenizations. VidTok incorporates several key advancements over
existing approaches: 1) model architecture such as convolutional layers and
up/downsampling modules; 2) to address the training instability and codebook
collapse commonly associated with conventional Vector Quantization (VQ), we
integrate Finite Scalar Quantization (FSQ) into discrete video tokenization; 3)
improved training strategies, including a two-stage training process and the
use of reduced frame rates. By integrating these advancements, VidTok achieves
substantial improvements over existing methods, demonstrating superior
performance across multiple metrics, including PSNR, SSIM, LPIPS, and FVD,
under standardized evaluation settings.Summary
AI-Generated Summary