디보트: 확산 기능을 갖춘 비디오 토크나이저로 이해와 생성을 돕다
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
December 5, 2024
저자: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
cs.AI
초록
최근 몇 년간 대형 언어 모델(Large Language Models, LLMs) 내에서 이미지 이해와 생성을 통합하는 데 대한 흥미가 크게 증가했습니다. 이 증가하는 흥미로 인해 우리는 이 통합을 비디오로 확장하는 것을 탐구하기로 결정했습니다. 핵심적인 도전 과제는 LLMs를 위한 공간적 특성과 시간적 동적을 모두 포착하는 다재다능한 비디오 토크나이저를 개발하는 것에 있으며, 이를 통해 표현을 얻어 현실적인 비디오 클립으로 디코딩하여 비디오 생성을 가능하게 합니다. 본 연구에서는 자기 지도 비디오 표현 학습을 위해 확산 프로세스를 활용하는 Divot, Diffusion-Powered Video Tokenizer를 소개합니다. 비디오 확산 모델이 비디오 토크나이저의 특성을 조건으로 삼아 비디오 클립을 효과적으로 노이즈 제거할 수 있다면, 토크나이저가 견고한 공간적 및 시간적 정보를 성공적으로 포착한 것으로 여겨집니다. 또한 비디오 확산 모델은 기본적으로 디-토크나이저로 작동하여 표현에서 비디오를 디코딩합니다. Divot 토크나이저를 기반으로 한 Divot-Vicuna를 소개하며, 연속값 Divot 특성의 분포를 가우시안 혼합 모델로 모델링하여 비디오에서 텍스트 자기 회귀 및 텍스트에서 비디오 생성을 수행합니다. 실험 결과는 우리의 확산 기반 비디오 토크나이저가 사전 훈련된 LLM과 통합될 때 다양한 비디오 이해 및 생성 벤치마크에서 경쟁력 있는 성능을 달성한다는 것을 보여줍니다. 지시에 맞게 조정된 Divot-Vicuna는 또한 비디오 스토리텔링에서 우수한 성과를 거두며 교차로 구성된 내러티브와 해당 비디오를 생성합니다.
English
In recent years, there has been a significant surge of interest in unifying
image comprehension and generation within Large Language Models (LLMs). This
growing interest has prompted us to explore extending this unification to
videos. The core challenge lies in developing a versatile video tokenizer that
captures both the spatial characteristics and temporal dynamics of videos to
obtain representations for LLMs, and the representations can be further decoded
into realistic video clips to enable video generation. In this work, we
introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the
diffusion process for self-supervised video representation learning. We posit
that if a video diffusion model can effectively de-noise video clips by taking
the features of a video tokenizer as the condition, then the tokenizer has
successfully captured robust spatial and temporal information. Additionally,
the video diffusion model inherently functions as a de-tokenizer, decoding
videos from their representations. Building upon the Divot tokenizer, we
present Divot-Vicuna through video-to-text autoregression and text-to-video
generation by modeling the distributions of continuous-valued Divot features
with a Gaussian Mixture Model. Experimental results demonstrate that our
diffusion-based video tokenizer, when integrated with a pre-trained LLM,
achieves competitive performance across various video comprehension and
generation benchmarks. The instruction tuned Divot-Vicuna also excels in video
storytelling, generating interleaved narratives and corresponding videos.Summary
AI-Generated Summary