크로스 모달 비디오 VAE를 사용한 대규모 동영상 자동 부호화
Large Motion Video Autoencoding with Cross-modal Video VAE
December 23, 2024
저자: Yazhou Xing, Yang Fei, Yingqing He, Jingye Chen, Jiaxin Xie, Xiaowei Chi, Qifeng Chen
cs.AI
초록
강력한 비디오 변이 오토인코더(Variational Autoencoder, VAE)를 학습하는 것은 비디오 중복을 줄이고 효율적인 비디오 생성을 용이하게 하는 데 중요합니다. 이미지 VAE를 각각의 프레임에 직접 적용하는 것은 시간적 불일치와 최적의 압축률 부족으로 인해 서브옵티멀한 압축률로 이어질 수 있습니다. 기존의 비디오 VAE는 시간적 압축을 다루기 시작했지만 종종 부족한 재구성 성능을 겪습니다. 본 논문에서는 고품질 비디오 인코딩이 가능한 혁신적이고 강력한 비디오 오토인코더를 제안합니다. 먼저, 이미지 VAE를 3D VAE로 확장하는 것만으로 공간 및 시간 압축을 엮는 것이 움직임 흐림과 세부 왜곡 아티팩트를 도입할 수 있다는 것을 관찰합니다. 따라서 우리는 공간 정보를 더 잘 인코딩하고 디코딩하기 위해 시간 인식적인 공간 압축을 제안합니다. 게다가, 추가적인 시간 압축을 위해 가벼운 움직임 압축 모델을 통합합니다. 둘째, 텍스트-비디오 데이터셋에 내재된 텍스트 정보를 활용하고 모델에 텍스트 가이드를 통합하는 것을 제안합니다. 이는 세부 보존 및 시간적 안정성 측면에서 특히 재구성 품질을 크게 향상시킵니다. 셋째, 이미지와 비디오 모두에 대해 공동으로 훈련하여 모델의 다재다능성을 더욱 향상시킵니다. 이는 재구성 품질을 향상시키는 것뿐만 아니라 이미지 및 비디오 오토인코딩을 가능하게 합니다. 강력한 최근 기준에 대한 포괄적인 평가는 우리 방법의 우수한 성능을 입증합니다. 프로젝트 웹사이트는 다음에서 확인할 수 있습니다: https://yzxing87.github.io/vae/.
English
Learning a robust video Variational Autoencoder (VAE) is essential for
reducing video redundancy and facilitating efficient video generation. Directly
applying image VAEs to individual frames in isolation can result in temporal
inconsistencies and suboptimal compression rates due to a lack of temporal
compression. Existing Video VAEs have begun to address temporal compression;
however, they often suffer from inadequate reconstruction performance. In this
paper, we present a novel and powerful video autoencoder capable of
high-fidelity video encoding. First, we observe that entangling spatial and
temporal compression by merely extending the image VAE to a 3D VAE can
introduce motion blur and detail distortion artifacts. Thus, we propose
temporal-aware spatial compression to better encode and decode the spatial
information. Additionally, we integrate a lightweight motion compression model
for further temporal compression. Second, we propose to leverage the textual
information inherent in text-to-video datasets and incorporate text guidance
into our model. This significantly enhances reconstruction quality,
particularly in terms of detail preservation and temporal stability. Third, we
further improve the versatility of our model through joint training on both
images and videos, which not only enhances reconstruction quality but also
enables the model to perform both image and video autoencoding. Extensive
evaluations against strong recent baselines demonstrate the superior
performance of our method. The project website can be found
at~https://yzxing87.github.io/vae/{https://yzxing87.github.io/vae/}.