VidTwin: Vídeo VAE com Estrutura e Dinâmica Desacopladas
VidTwin: Video VAE with Decoupled Structure and Dynamics
December 23, 2024
Autores: Yuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
cs.AI
Resumo
Os avanços recentes em autoencoders de vídeo (Video AEs) melhoraram significativamente a qualidade e eficiência da geração de vídeo. Neste artigo, propomos um autoencoder de vídeo inovador e compacto, chamado VidTwin, que separa o vídeo em dois espaços latentes distintos: vetores latentes de Estrutura, que capturam o conteúdo geral e movimento global, e vetores latentes de Dinâmica, que representam detalhes refinados e movimentos rápidos. Especificamente, nossa abordagem utiliza uma estrutura Encoder-Decoder, complementada por dois submódulos para extrair esses espaços latentes, respectivamente. O primeiro submódulo emprega um Q-Former para extrair tendências de movimento de baixa frequência, seguido por blocos de downsampling para remover detalhes redundantes de conteúdo. O segundo submódulo calcula a média dos vetores latentes ao longo da dimensão espacial para capturar movimentos rápidos. Experimentos extensivos mostram que o VidTwin alcança uma alta taxa de compressão de 0,20% com alta qualidade de reconstrução (PSNR de 28,14 no conjunto de dados MCL-JCV) e desempenha de forma eficiente e eficaz em tarefas generativas subsequentes. Além disso, nosso modelo demonstra explicabilidade e escalabilidade, abrindo caminho para pesquisas futuras em representação latente e geração de vídeo. Nosso código foi disponibilizado em https://github.com/microsoft/VidTok/tree/main/vidtwin.
English
Recent advancements in video autoencoders (Video AEs) have significantly
improved the quality and efficiency of video generation. In this paper, we
propose a novel and compact video autoencoder, VidTwin, that decouples video
into two distinct latent spaces: Structure latent vectors, which capture
overall content and global movement, and Dynamics latent vectors, which
represent fine-grained details and rapid movements. Specifically, our approach
leverages an Encoder-Decoder backbone, augmented with two submodules for
extracting these latent spaces, respectively. The first submodule employs a
Q-Former to extract low-frequency motion trends, followed by downsampling
blocks to remove redundant content details. The second averages the latent
vectors along the spatial dimension to capture rapid motion. Extensive
experiments show that VidTwin achieves a high compression rate of 0.20% with
high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and
performs efficiently and effectively in downstream generative tasks. Moreover,
our model demonstrates explainability and scalability, paving the way for
future research in video latent representation and generation. Our code has
been released at https://github.com/microsoft/VidTok/tree/main/vidtwin.Summary
AI-Generated Summary