VidTwin: 構造とダイナミクスを分離したビデオVAE
VidTwin: Video VAE with Decoupled Structure and Dynamics
December 23, 2024
著者: Yuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian
cs.AI
要旨
最近の動画オートエンコーダー(Video AEs)の進歩により、動画生成の品質と効率が大幅に向上しました。本論文では、動画を2つの異なる潜在空間に分解する革新的でコンパクトな動画オートエンコーダー、VidTwinを提案します。これには、全体的なコンテンツとグローバルな動きを捉える構造潜在ベクトルと、細かい詳細や急速な動きを表すダイナミクス潜在ベクトルが含まれます。具体的には、当社の手法は、これらの潜在空間を抽出するための2つのサブモジュールを備えたエンコーダーデコーダーバックボーンを活用しています。最初のサブモジュールは、低周波数の動きの傾向を抽出するためにQ-Formerを使用し、冗長なコンテンツの詳細を削除するためにダウンサンプリングブロックを続けます。2つ目は、空間次元に沿って潜在ベクトルを平均化して急速な動きを捉えます。幅広い実験により、VidTwinは高い再圧縮率(MCL-JCVデータセットでのPSNRが28.14)を達成し、下流の生成タスクで効率的かつ効果的に機能します。さらに、当社のモデルは説明可能性と拡張性を示し、動画の潜在表現と生成における将来の研究の道を開いています。当社のコードは、https://github.com/microsoft/VidTok/tree/main/vidtwin で公開されています。
English
Recent advancements in video autoencoders (Video AEs) have significantly
improved the quality and efficiency of video generation. In this paper, we
propose a novel and compact video autoencoder, VidTwin, that decouples video
into two distinct latent spaces: Structure latent vectors, which capture
overall content and global movement, and Dynamics latent vectors, which
represent fine-grained details and rapid movements. Specifically, our approach
leverages an Encoder-Decoder backbone, augmented with two submodules for
extracting these latent spaces, respectively. The first submodule employs a
Q-Former to extract low-frequency motion trends, followed by downsampling
blocks to remove redundant content details. The second averages the latent
vectors along the spatial dimension to capture rapid motion. Extensive
experiments show that VidTwin achieves a high compression rate of 0.20% with
high reconstruction quality (PSNR of 28.14 on the MCL-JCV dataset), and
performs efficiently and effectively in downstream generative tasks. Moreover,
our model demonstrates explainability and scalability, paving the way for
future research in video latent representation and generation. Our code has
been released at https://github.com/microsoft/VidTok/tree/main/vidtwin.Summary
AI-Generated Summary