VidTwin: VAE Video con Struttura e Dinamiche Decoupled

VidTwin: Video VAE with Decoupled Structure and Dynamics

December 23, 2024
Autori: Yuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
cs.AI

Abstract

Gli avanzamenti recenti nei codificatori automatici video (Video AEs) hanno migliorato significativamente la qualità e l'efficienza della generazione video. In questo articolo, proponiamo un codificatore automatico video innovativo e compatto, VidTwin, che separa i video in due spazi latenti distinti: vettori latenti di Struttura, che catturano il contenuto complessivo e il movimento globale, e vettori latenti di Dinamica, che rappresentano dettagli fini e movimenti rapidi. In particolare, il nostro approccio sfrutta un'architettura Codificatore-Decodificatore, potenziata con due sottomoduli per l'estrazione di questi spazi latenti, rispettivamente. Il primo sottomodulo utilizza un Q-Former per estrarre le tendenze di movimento a bassa frequenza, seguito da blocchi di sottocampionamento per rimuovere dettagli di contenuto ridondanti. Il secondo calcola la media dei vettori latenti lungo la dimensione spaziale per catturare il movimento rapido. Estesi esperimenti dimostrano che VidTwin raggiunge un'elevata percentuale di compressione dello 0,20% con alta qualità di ricostruzione (PSNR di 28,14 sul dataset MCL-JCV), e si comporta in modo efficiente ed efficace nei compiti generativi successivi. Inoltre, il nostro modello dimostra spiegabilità e scalabilità, aprendo la strada per futuri studi sulla rappresentazione latente e generazione video. Il nostro codice è stato reso disponibile su https://github.com/microsoft/VidTok/tree/main/vidtwin.
English
Recent advancements in video autoencoders (Video AEs) have significantly improved the quality and efficiency of video generation. In this paper, we propose a novel and compact video autoencoder, VidTwin, that decouples video into two distinct latent spaces: Structure latent vectors, which capture overall content and global movement, and Dynamics latent vectors, which represent fine-grained details and rapid movements. Specifically, our approach leverages an Encoder-Decoder backbone, augmented with two submodules for extracting these latent spaces, respectively. The first submodule employs a Q-Former to extract low-frequency motion trends, followed by downsampling blocks to remove redundant content details. The second averages the latent vectors along the spatial dimension to capture rapid motion. Extensive experiments show that VidTwin achieves a high compression rate of 0.20% with high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and performs efficiently and effectively in downstream generative tasks. Moreover, our model demonstrates explainability and scalability, paving the way for future research in video latent representation and generation. Our code has been released at https://github.com/microsoft/VidTok/tree/main/vidtwin.

Summary

AI-Generated Summary

PDF21December 27, 2024