Esplorando l'Effetto del Reinforcement Learning sulla Comprensione Video: Approfondimenti da SEED-Bench-R1
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1
March 31, 2025
Autori: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
cs.AI
Abstract
I recenti progressi nella generazione di Catena di Pensiero (Chain of Thought, COT) hanno significativamente migliorato le capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs), con l'apprendimento per rinforzo (Reinforcement Learning, RL) che emerge come un approccio efficace nel post-addestramento. I Modelli Linguistici Multimodali di Grande Dimensione (Multimodal Large Language Models, MLLMs) ereditano questo potenziale di ragionamento, ma rimangono poco esplorati in compiti che richiedono sia percezione che ragionamento logico. Per affrontare questa lacuna, introduciamo SEED-Bench-R1, un benchmark progettato per valutare sistematicamente i metodi di post-addestramento per MLLMs nella comprensione di video. Questo include video complessi del mondo reale e compiti di pianificazione quotidiana in formato di domande a scelta multipla, che richiedono una percezione e un ragionamento sofisticati. SEED-Bench-R1 valuta la generalizzazione attraverso una gerarchia a tre livelli: scenari in-distribuzione, cross-ambiente e cross-ambiente-compito, dotato di un ampio dataset di addestramento con risposte di verità facilmente verificabili. Utilizzando Qwen2-VL-Instruct-7B come modello di base, confrontiamo RL con il fine-tuning supervisionato (Supervised Fine-Tuning, SFT), dimostrando l'efficienza dei dati di RL e le sue prestazioni superiori sia nei compiti in-distribuzione che out-of-distribution, superando persino SFT su benchmark generali di comprensione video come LongVideoBench. La nostra analisi dettagliata rivela che RL migliora la percezione visiva ma spesso produce catene di ragionamento meno coerenti logicamente. Identifichiamo limitazioni chiave come il ragionamento incoerente e gli indizi visivi trascurati, e suggeriamo miglioramenti futuri nel ragionamento del modello di base, nella modellazione delle ricompense e nella robustezza di RL contro segnali rumorosi.
English
Recent advancements in Chain of Thought (COT) generation have significantly
improved the reasoning capabilities of Large Language Models (LLMs), with
reinforcement learning (RL) emerging as an effective post-training approach.
Multimodal Large Language Models (MLLMs) inherit this reasoning potential but
remain underexplored in tasks requiring both perception and logical reasoning.
To address this, we introduce SEED-Bench-R1, a benchmark designed to
systematically evaluate post-training methods for MLLMs in video understanding.
It includes intricate real-world videos and complex everyday planning tasks in
the format of multiple-choice questions, requiring sophisticated perception and
reasoning. SEED-Bench-R1 assesses generalization through a three-level
hierarchy: in-distribution, cross-environment, and cross-environment-task
scenarios, equipped with a large-scale training dataset with easily verifiable
ground-truth answers. Using Qwen2-VL-Instruct-7B as a base model, we compare RL
with supervised fine-tuning (SFT), demonstrating RL's data efficiency and
superior performance on both in-distribution and out-of-distribution tasks,
even outperforming SFT on general video understanding benchmarks like
LongVideoBench. Our detailed analysis reveals that RL enhances visual
perception but often produces less logically coherent reasoning chains. We
identify key limitations such as inconsistent reasoning and overlooked visual
cues, and suggest future improvements in base model reasoning, reward modeling,
and RL robustness against noisy signals.Summary
AI-Generated Summary