Modellizzazione di Video Lunghi Multimodali Basata sul Contesto Dinamico Temporale
Multimodal Long Video Modeling Based on Temporal Dynamic Context
April 14, 2025
Autori: Haoran Hao, Jiaming Han, Yiyuan Zhang, Xiangyu Yue
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLMs) hanno portato a significativi avanzamenti nella comprensione dei video. Tuttavia, i modelli esistenti continuano a incontrare difficoltà nell'elaborazione di video lunghi a causa del vincolo della lunghezza del contesto degli LLMs e della vasta quantità di informazioni contenute nel video. Sebbene alcuni metodi recenti siano progettati per la comprensione di video lunghi, spesso perdono informazioni cruciali durante la compressione dei token e faticano a gestire modalità aggiuntive come l'audio. In questo lavoro, proponiamo un metodo dinamico di codifica di video lunghi che sfrutta la relazione temporale tra i fotogrammi, denominato Temporal Dynamic Context (TDC). In primo luogo, segmentiamo il video in scene semanticamente coerenti basandoci sulle similarità inter-fotogramma, quindi codifichiamo ciascun fotogramma in token utilizzando encoder visivo-auditivi. In secondo luogo, proponiamo un nuovo compressore di contesto temporale per ridurre il numero di token all'interno di ciascun segmento. Nello specifico, utilizziamo un Transformer basato su query per aggregare i token del video, dell'audio e del testo di istruzione in un insieme limitato di token di contesto temporale. Infine, forniamo i token statici dei fotogrammi e i token di contesto temporale all'LLM per la comprensione del video. Inoltre, per gestire video estremamente lunghi, proponiamo una strategia di catena di pensiero (chain-of-thought) senza addestramento che estrae progressivamente risposte da più segmenti video. Queste risposte intermedie fungono da parte del processo di ragionamento e contribuiscono alla risposta finale. Abbiamo condotto esperimenti estesi su benchmark di comprensione generale dei video e di comprensione audio-video, dove il nostro metodo dimostra prestazioni solide. Il codice e i modelli sono disponibili all'indirizzo https://github.com/Hoar012/TDC-Video.
English
Recent advances in Large Language Models (LLMs) have led to significant
breakthroughs in video understanding. However, existing models still struggle
with long video processing due to the context length constraint of LLMs and the
vast amount of information within the video. Although some recent methods are
designed for long video understanding, they often lose crucial information
during token compression and struggle with additional modality like audio. In
this work, we propose a dynamic long video encoding method utilizing the
temporal relationship between frames, named Temporal Dynamic Context (TDC).
Firstly, we segment the video into semantically consistent scenes based on
inter-frame similarities, then encode each frame into tokens using visual-audio
encoders. Secondly, we propose a novel temporal context compressor to reduce
the number of tokens within each segment. Specifically, we employ a query-based
Transformer to aggregate video, audio, and instruction text tokens into a
limited set of temporal context tokens. Finally, we feed the static frame
tokens and the temporal context tokens into the LLM for video understanding.
Furthermore, to handle extremely long videos, we propose a training-free
chain-of-thought strategy that progressively extracts answers from multiple
video segments. These intermediate answers serve as part of the reasoning
process and contribute to the final answer. We conduct extensive experiments on
general video understanding and audio-video understanding benchmarks, where our
method demonstrates strong performance. The code and models are available at
https://github.com/Hoar012/TDC-Video.Summary
AI-Generated Summary