VideoEspresso: un ampio dataset a catena di pensiero per il ragionamento video dettagliato tramite la selezione del frame principale.
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection
November 22, 2024
Autori: Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu
cs.AI
Abstract
L'avanzamento dei Grandi Modelli di Linguaggio Visivo (LVLMs) ha migliorato significativamente la comprensione multimodale, tuttavia rimangono sfide nei compiti di ragionamento video a causa della scarsità di dataset di grandi dimensioni e di alta qualità. I dataset esistenti di domande e risposte video (VideoQA) spesso si basano su costose annotazioni manuali con una granularità insufficiente o su metodi di costruzione automatica con un'analisi ridondante frame per frame, limitando la scalabilità e l'efficacia per il ragionamento complesso. Per affrontare queste sfide, presentiamo VideoEspresso, un nuovo dataset che presenta coppie VideoQA che conservano dettagli spaziali essenziali e coerenza temporale, insieme ad annotazioni multimodali di passaggi di ragionamento intermedi. Il nostro processo di costruzione utilizza un metodo consapevole della semantica per ridurre la ridondanza, seguito dalla generazione di coppie domanda-risposta utilizzando GPT-4o. Sviluppiamo inoltre annotazioni video Chain-of-Thought (CoT) per arricchire i processi di ragionamento, guidando GPT-4o nell'estrazione di relazioni logiche dalle coppie domanda-risposta e dal contenuto video. Per sfruttare il potenziale delle coppie VideoQA di alta qualità, proponiamo un framework di Collaborazione Ibrida di LVLMs, con un Selettore di Frame e un LVLM di ragionamento a due fasi con istruzioni ottimizzate. Questo framework seleziona in modo adattivo i frame principali e esegue il ragionamento CoT utilizzando prove multimodali. Valutato sul nostro benchmark proposto con 14 compiti contro 9 LVLMs popolari, il nostro metodo supera i baselines esistenti nella maggior parte dei compiti, dimostrando capacità di ragionamento video superiori. Il nostro codice e dataset saranno rilasciati su: https://github.com/hshjerry/VideoEspresso
English
The advancement of Large Vision Language Models (LVLMs) has significantly
improved multimodal understanding, yet challenges remain in video reasoning
tasks due to the scarcity of high-quality, large-scale datasets. Existing video
question-answering (VideoQA) datasets often rely on costly manual annotations
with insufficient granularity or automatic construction methods with redundant
frame-by-frame analysis, limiting their scalability and effectiveness for
complex reasoning. To address these challenges, we introduce VideoEspresso, a
novel dataset that features VideoQA pairs preserving essential spatial details
and temporal coherence, along with multimodal annotations of intermediate
reasoning steps. Our construction pipeline employs a semantic-aware method to
reduce redundancy, followed by generating QA pairs using GPT-4o. We further
develop video Chain-of-Thought (CoT) annotations to enrich reasoning processes,
guiding GPT-4o in extracting logical relationships from QA pairs and video
content. To exploit the potential of high-quality VideoQA pairs, we propose a
Hybrid LVLMs Collaboration framework, featuring a Frame Selector and a
two-stage instruction fine-tuned reasoning LVLM. This framework adaptively
selects core frames and performs CoT reasoning using multimodal evidence.
Evaluated on our proposed benchmark with 14 tasks against 9 popular LVLMs, our
method outperforms existing baselines on most tasks, demonstrating superior
video reasoning capabilities. Our code and dataset will be released at:
https://github.com/hshjerry/VideoEspressoSummary
AI-Generated Summary