Divot: la diffusione alimenta il tokenizer video per la comprensione e la generazione

Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

December 5, 2024
Autori: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
cs.AI

Abstract

Negli ultimi anni c'è stato un significativo aumento di interesse nell'unificare la comprensione e la generazione di immagini all'interno dei Grandi Modelli Linguistici (LLM). Questo crescente interesse ci ha spinti ad esplorare l'estensione di questa unificazione ai video. La sfida principale risiede nello sviluppare un tokenizzatore video versatile che catturi sia le caratteristiche spaziali che le dinamiche temporali dei video per ottenere rappresentazioni per i LLM, e le rappresentazioni possono essere ulteriormente decodificate in clip video realistiche per abilitare la generazione di video. In questo lavoro, presentiamo Divot, un Tokenizzatore Video Alimentato da Diffusione, che sfrutta il processo di diffusione per l'apprendimento di rappresentazioni video auto-supervisionate. Sosteniamo che se un modello di diffusione video può efficacemente eliminare il rumore dalle clip video prendendo le caratteristiche di un tokenizzatore video come condizione, allora il tokenizzatore ha catturato con successo informazioni spaziali e temporali robuste. Inoltre, il modello di diffusione video funziona intrinsecamente come un de-tokenizzatore, decodificando video dalle loro rappresentazioni. Basandoci sul tokenizzatore Divot, presentiamo Divot-Vicuna attraverso un'autoregressione video-testo e una generazione testo-video modellando le distribuzioni delle caratteristiche Divot continue con un Modello a Misure Gaussiane. I risultati sperimentali dimostrano che il nostro tokenizzatore video basato sulla diffusione, quando integrato con un LLM pre-addestrato, raggiunge prestazioni competitive su vari benchmark di comprensione e generazione video. Il Divot-Vicuna ottimizzato con istruzioni eccelle anche nella narrazione video, generando narrazioni interlacciate e video corrispondenti.
English
In recent years, there has been a significant surge of interest in unifying image comprehension and generation within Large Language Models (LLMs). This growing interest has prompted us to explore extending this unification to videos. The core challenge lies in developing a versatile video tokenizer that captures both the spatial characteristics and temporal dynamics of videos to obtain representations for LLMs, and the representations can be further decoded into realistic video clips to enable video generation. In this work, we introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the diffusion process for self-supervised video representation learning. We posit that if a video diffusion model can effectively de-noise video clips by taking the features of a video tokenizer as the condition, then the tokenizer has successfully captured robust spatial and temporal information. Additionally, the video diffusion model inherently functions as a de-tokenizer, decoding videos from their representations. Building upon the Divot tokenizer, we present Divot-Vicuna through video-to-text autoregression and text-to-video generation by modeling the distributions of continuous-valued Divot features with a Gaussian Mixture Model. Experimental results demonstrate that our diffusion-based video tokenizer, when integrated with a pre-trained LLM, achieves competitive performance across various video comprehension and generation benchmarks. The instruction tuned Divot-Vicuna also excels in video storytelling, generating interleaved narratives and corresponding videos.

Summary

AI-Generated Summary

PDF152December 10, 2024