Divot: la diffusione alimenta il tokenizer video per la comprensione e la generazione
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation
December 5, 2024
Autori: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
cs.AI
Abstract
Negli ultimi anni c'è stato un significativo aumento di interesse nell'unificare la comprensione e la generazione di immagini all'interno dei Grandi Modelli Linguistici (LLM). Questo crescente interesse ci ha spinti ad esplorare l'estensione di questa unificazione ai video. La sfida principale risiede nello sviluppare un tokenizzatore video versatile che catturi sia le caratteristiche spaziali che le dinamiche temporali dei video per ottenere rappresentazioni per i LLM, e le rappresentazioni possono essere ulteriormente decodificate in clip video realistiche per abilitare la generazione di video. In questo lavoro, presentiamo Divot, un Tokenizzatore Video Alimentato da Diffusione, che sfrutta il processo di diffusione per l'apprendimento di rappresentazioni video auto-supervisionate. Sosteniamo che se un modello di diffusione video può efficacemente eliminare il rumore dalle clip video prendendo le caratteristiche di un tokenizzatore video come condizione, allora il tokenizzatore ha catturato con successo informazioni spaziali e temporali robuste. Inoltre, il modello di diffusione video funziona intrinsecamente come un de-tokenizzatore, decodificando video dalle loro rappresentazioni. Basandoci sul tokenizzatore Divot, presentiamo Divot-Vicuna attraverso un'autoregressione video-testo e una generazione testo-video modellando le distribuzioni delle caratteristiche Divot continue con un Modello a Misure Gaussiane. I risultati sperimentali dimostrano che il nostro tokenizzatore video basato sulla diffusione, quando integrato con un LLM pre-addestrato, raggiunge prestazioni competitive su vari benchmark di comprensione e generazione video. Il Divot-Vicuna ottimizzato con istruzioni eccelle anche nella narrazione video, generando narrazioni interlacciate e video corrispondenti.
English
In recent years, there has been a significant surge of interest in unifying
image comprehension and generation within Large Language Models (LLMs). This
growing interest has prompted us to explore extending this unification to
videos. The core challenge lies in developing a versatile video tokenizer that
captures both the spatial characteristics and temporal dynamics of videos to
obtain representations for LLMs, and the representations can be further decoded
into realistic video clips to enable video generation. In this work, we
introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the
diffusion process for self-supervised video representation learning. We posit
that if a video diffusion model can effectively de-noise video clips by taking
the features of a video tokenizer as the condition, then the tokenizer has
successfully captured robust spatial and temporal information. Additionally,
the video diffusion model inherently functions as a de-tokenizer, decoding
videos from their representations. Building upon the Divot tokenizer, we
present Divot-Vicuna through video-to-text autoregression and text-to-video
generation by modeling the distributions of continuous-valued Divot features
with a Gaussian Mixture Model. Experimental results demonstrate that our
diffusion-based video tokenizer, when integrated with a pre-trained LLM,
achieves competitive performance across various video comprehension and
generation benchmarks. The instruction tuned Divot-Vicuna also excels in video
storytelling, generating interleaved narratives and corresponding videos.Summary
AI-Generated Summary