ChatPaper.aiChatPaper

VCR-Bench: Un Framework di Valutazione Completo per il Ragionamento a Catena di Pensiero nei Video

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

April 10, 2025
Autori: Yukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao
cs.AI

Abstract

Il progresso del ragionamento a catena di pensiero (Chain-of-Thought, CoT) ha significativamente migliorato le capacità dei grandi modelli linguistici (Large Language Models, LLMs) e dei grandi modelli visione-linguaggio (Large Vision-Language Models, LVLMs). Tuttavia, manca un framework di valutazione rigoroso per il ragionamento CoT applicato ai video. Gli attuali benchmark video non riescono a valutare adeguatamente il processo di ragionamento e a identificare se gli errori derivano da carenze nelle capacità di percezione o di ragionamento. Pertanto, introduciamo VCR-Bench, un nuovo benchmark progettato per valutare in modo completo le capacità di ragionamento CoT video degli LVLMs. VCR-Bench comprende 859 video che coprono una varietà di contenuti e durate, insieme a 1.034 coppie domanda-risposta di alta qualità. Ogni coppia è annotata manualmente con una razionalizzazione CoT graduale, in cui ogni passaggio è etichettato per indicare la sua associazione con le capacità di percezione o di ragionamento. Inoltre, progettiamo sette dimensioni di task distinte e proponiamo il punteggio CoT per valutare l'intero processo CoT basandosi sulle razionalizzazioni CoT etichettate passo-passo. Esperimenti estensivi su VCR-Bench evidenziano limitazioni sostanziali negli attuali LVLMs. Anche il modello con le migliori prestazioni, o1, raggiunge solo un punteggio CoT del 62,8% e un'accuratezza del 56,7%, mentre la maggior parte dei modelli ottiene punteggi inferiori al 40%. Gli esperimenti mostrano che la maggior parte dei modelli ottiene punteggi più bassi nei passaggi di percezione rispetto a quelli di ragionamento, rivelando il principale collo di bottiglia degli LVLMs nell'elaborazione delle informazioni spazio-temporali per il ragionamento video complesso. Una forte correlazione positiva tra il punteggio CoT e l'accuratezza conferma la validità del nostro framework di valutazione e sottolinea il ruolo cruciale del ragionamento CoT nella risoluzione di task di ragionamento video complessi. Speriamo che VCR-Bench serva come framework di valutazione standardizzato e metta in luce le reali carenze nei task di ragionamento video complessi.
English
The advancement of Chain-of-Thought (CoT) reasoning has significantly enhanced the capabilities of large language models (LLMs) and large vision-language models (LVLMs). However, a rigorous evaluation framework for video CoT reasoning remains absent. Current video benchmarks fail to adequately assess the reasoning process and expose whether failures stem from deficiencies in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a novel benchmark designed to comprehensively evaluate LVLMs' Video Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos spanning a variety of video content and durations, along with 1,034 high-quality question-answer pairs. Each pair is manually annotated with a stepwise CoT rationale, where every step is tagged to indicate its association with the perception or reasoning capabilities. Furthermore, we design seven distinct task dimensions and propose the CoT score to assess the entire CoT process based on the stepwise tagged CoT rationals. Extensive experiments on VCR-Bench highlight substantial limitations in current LVLMs. Even the top-performing model, o1, only achieves a 62.8% CoT score and an 56.7% accuracy, while most models score below 40%. Experiments show most models score lower on perception than reasoning steps, revealing LVLMs' key bottleneck in temporal-spatial information processing for complex video reasoning. A robust positive correlation between the CoT score and accuracy confirms the validity of our evaluation framework and underscores the critical role of CoT reasoning in solving complex video reasoning tasks. We hope VCR-Bench to serve as a standardized evaluation framework and expose the actual drawbacks in complex video reasoning task.

Summary

AI-Generated Summary

PDF432April 11, 2025