VideoLLM sa quando parlare: Migliorare la comprensione di video sensibili al tempo con il formato di interazione video-testo duale
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
November 27, 2024
Autori: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
cs.AI
Abstract
Le ricerche recenti sui grandi modelli linguistici video (VideoLLM) si concentrano principalmente sulle architetture dei modelli e sui set di dati di addestramento, lasciando in secondo piano il formato di interazione tra l'utente e il modello. Nei lavori esistenti, gli utenti interagiscono spesso con i VideoLLM utilizzando l'intero video e una query come input, dopodiché il modello genera una risposta. Questo formato di interazione limita l'applicazione dei VideoLLM in scenari come la comprensione in live streaming, dove i video non finiscono e le risposte sono richieste in tempo reale, e porta anche a prestazioni non soddisfacenti in compiti sensibili al tempo che richiedono la localizzazione dei segmenti video. In questo articolo, ci concentriamo su un formato di interazione video-testo a due voci. Questo formato di interazione è caratterizzato dalla riproduzione continua del video, e sia l'utente che il modello possono inserire i propri messaggi di testo in qualsiasi posizione durante la riproduzione del video. Quando un messaggio di testo termina, il video continua a riprodursi, simile all'alternanza di due esecutori in un duetto. Costruiamo MMDuetIT, un set di dati di addestramento video-testo progettato per adattare i VideoLLM al formato di interazione video-testo a due voci. Introduciamo anche il compito di Question Answering su Video con Risposte Multiple (MAGQA) per valutare la capacità di risposta in tempo reale dei VideoLLM. Addestrato su MMDuetIT, MMDuet dimostra che l'adozione del formato di interazione video-testo a due voci consente al modello di ottenere miglioramenti significativi in vari compiti sensibili al tempo (76% CIDEr sulla descrizione densa di video YouCook2, 90% mAP sulla rilevazione dei momenti salienti di QVHighlights e 25% R@0.5 sulla localizzazione temporale dei video di Charades-STA) con minimi sforzi di addestramento, consentendo inoltre ai VideoLLM di rispondere in tempo reale mentre il video viene riprodotto. Il codice, i dati e la demo sono disponibili su: https://github.com/yellow-binary-tree/MMDuet.
English
Recent researches on video large language models (VideoLLM) predominantly
focus on model architectures and training datasets, leaving the interaction
format between the user and the model under-explored. In existing works, users
often interact with VideoLLMs by using the entire video and a query as input,
after which the model generates a response. This interaction format constrains
the application of VideoLLMs in scenarios such as live-streaming comprehension
where videos do not end and responses are required in a real-time manner, and
also results in unsatisfactory performance on time-sensitive tasks that
requires localizing video segments. In this paper, we focus on a video-text
duet interaction format. This interaction format is characterized by the
continuous playback of the video, and both the user and the model can insert
their text messages at any position during the video playback. When a text
message ends, the video continues to play, akin to the alternative of two
performers in a duet. We construct MMDuetIT, a video-text training dataset
designed to adapt VideoLLMs to video-text duet interaction format. We also
introduce the Multi-Answer Grounded Video Question Answering (MAGQA) task to
benchmark the real-time response ability of VideoLLMs. Trained on MMDuetIT,
MMDuet demonstrates that adopting the video-text duet interaction format
enables the model to achieve significant improvements in various time-sensitive
tasks (76% CIDEr on YouCook2 dense video captioning, 90\% mAP on QVHighlights
highlight detection and 25% R@0.5 on Charades-STA temporal video grounding)
with minimal training efforts, and also enable VideoLLMs to reply in a
real-time manner as the video plays. Code, data and demo are available at:
https://github.com/yellow-binary-tree/MMDuet.Summary
AI-Generated Summary