ChatPaper.aiChatPaper

VidTwin: 구조와 동적이 분리된 비디오 VAE

VidTwin: Video VAE with Decoupled Structure and Dynamics

December 23, 2024
저자: Yuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
cs.AI

초록

최근 비디오 오토인코더(Video AEs)의 발전으로 비디오 생성의 품질과 효율이 크게 향상되었습니다. 본 논문에서는 비디오를 두 가지 다른 잠재 공간으로 분리하는 혁신적이고 간결한 비디오 오토인코더 VidTwin을 제안합니다. 이는 전반적인 콘텐츠와 전역적인 움직임을 포착하는 구조 잠재 벡터와 세부적인 세부사항과 빠른 움직임을 나타내는 동역학 잠재 벡터로 비디오를 분해합니다. 구체적으로, 저품질 모션 트렌드를 추출하기 위해 Q-Former를 활용하는 첫 번째 서브모듈이 Encoder-Decoder 백본을 보완하고, 이어서 중복 내용 세부사항을 제거하기 위한 다운샘플링 블록이 사용됩니다. 두 번째 서브모듈은 빠른 움직임을 포착하기 위해 잠재 벡터를 공간 차원을 따라 평균화합니다. 광범위한 실험 결과 VidTwin은 MCL-JCV 데이터셋에서 28.14의 PSNR로 높은 재구성 품질을 달성하면서 0.20%의 높은 압축률을 보여주며, 하류 생성 작업에서 효율적이고 효과적으로 수행됩니다. 더불어, 우리의 모델은 설명 가능성과 확장성을 보여주며, 비디오 잠재 표현 및 생성에 대한 미래 연구를 위한 길을 열어줍니다. 우리의 코드는 https://github.com/microsoft/VidTok/tree/main/vidtwin에서 공개되었습니다.
English
Recent advancements in video autoencoders (Video AEs) have significantly improved the quality and efficiency of video generation. In this paper, we propose a novel and compact video autoencoder, VidTwin, that decouples video into two distinct latent spaces: Structure latent vectors, which capture overall content and global movement, and Dynamics latent vectors, which represent fine-grained details and rapid movements. Specifically, our approach leverages an Encoder-Decoder backbone, augmented with two submodules for extracting these latent spaces, respectively. The first submodule employs a Q-Former to extract low-frequency motion trends, followed by downsampling blocks to remove redundant content details. The second averages the latent vectors along the spatial dimension to capture rapid motion. Extensive experiments show that VidTwin achieves a high compression rate of 0.20% with high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and performs efficiently and effectively in downstream generative tasks. Moreover, our model demonstrates explainability and scalability, paving the way for future research in video latent representation and generation. Our code has been released at https://github.com/microsoft/VidTok/tree/main/vidtwin.

Summary

AI-Generated Summary

PDF21December 27, 2024