VideoEspresso: un ampio dataset a catena di pensiero per il ragionamento video dettagliato tramite la selezione del frame principale.

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

November 22, 2024
Autori: Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu
cs.AI

Abstract

L'avanzamento dei Grandi Modelli di Linguaggio Visivo (LVLMs) ha migliorato significativamente la comprensione multimodale, tuttavia rimangono sfide nei compiti di ragionamento video a causa della scarsità di dataset di grandi dimensioni e di alta qualità. I dataset esistenti di domande e risposte video (VideoQA) spesso si basano su costose annotazioni manuali con una granularità insufficiente o su metodi di costruzione automatica con un'analisi ridondante frame per frame, limitando la scalabilità e l'efficacia per il ragionamento complesso. Per affrontare queste sfide, presentiamo VideoEspresso, un nuovo dataset che presenta coppie VideoQA che conservano dettagli spaziali essenziali e coerenza temporale, insieme ad annotazioni multimodali di passaggi di ragionamento intermedi. Il nostro processo di costruzione utilizza un metodo consapevole della semantica per ridurre la ridondanza, seguito dalla generazione di coppie domanda-risposta utilizzando GPT-4o. Sviluppiamo inoltre annotazioni video Chain-of-Thought (CoT) per arricchire i processi di ragionamento, guidando GPT-4o nell'estrazione di relazioni logiche dalle coppie domanda-risposta e dal contenuto video. Per sfruttare il potenziale delle coppie VideoQA di alta qualità, proponiamo un framework di Collaborazione Ibrida di LVLMs, con un Selettore di Frame e un LVLM di ragionamento a due fasi con istruzioni ottimizzate. Questo framework seleziona in modo adattivo i frame principali e esegue il ragionamento CoT utilizzando prove multimodali. Valutato sul nostro benchmark proposto con 14 compiti contro 9 LVLMs popolari, il nostro metodo supera i baselines esistenti nella maggior parte dei compiti, dimostrando capacità di ragionamento video superiori. Il nostro codice e dataset saranno rilasciati su: https://github.com/hshjerry/VideoEspresso
English
The advancement of Large Vision Language Models (LVLMs) has significantly improved multimodal understanding, yet challenges remain in video reasoning tasks due to the scarcity of high-quality, large-scale datasets. Existing video question-answering (VideoQA) datasets often rely on costly manual annotations with insufficient granularity or automatic construction methods with redundant frame-by-frame analysis, limiting their scalability and effectiveness for complex reasoning. To address these challenges, we introduce VideoEspresso, a novel dataset that features VideoQA pairs preserving essential spatial details and temporal coherence, along with multimodal annotations of intermediate reasoning steps. Our construction pipeline employs a semantic-aware method to reduce redundancy, followed by generating QA pairs using GPT-4o. We further develop video Chain-of-Thought (CoT) annotations to enrich reasoning processes, guiding GPT-4o in extracting logical relationships from QA pairs and video content. To exploit the potential of high-quality VideoQA pairs, we propose a Hybrid LVLMs Collaboration framework, featuring a Frame Selector and a two-stage instruction fine-tuned reasoning LVLM. This framework adaptively selects core frames and performs CoT reasoning using multimodal evidence. Evaluated on our proposed benchmark with 14 tasks against 9 popular LVLMs, our method outperforms existing baselines on most tasks, demonstrating superior video reasoning capabilities. Our code and dataset will be released at: https://github.com/hshjerry/VideoEspresso

Summary

AI-Generated Summary

PDF133November 25, 2024