Video-R1: Rafforzamento del Ragionamento Video nei MLLM
Video-R1: Reinforcing Video Reasoning in MLLMs
March 27, 2025
Autori: Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue
cs.AI
Abstract
Ispirati dal successo di DeepSeek-R1 nell'evocare capacità di ragionamento attraverso l'apprendimento per rinforzo basato su regole (RL), introduciamo Video-R1 come il primo tentativo di esplorare sistematicamente il paradigma R1 per stimolare il ragionamento video all'interno di modelli linguistici multimodali di grandi dimensioni (MLLMs). Tuttavia, l'applicazione diretta dell'addestramento RL con l'algoritmo GRPO al ragionamento video presenta due principali sfide: (i) la mancanza di modellazione temporale per il ragionamento video, e (ii) la scarsità di dati di alta qualità per il ragionamento video. Per affrontare questi problemi, proponiamo innanzitutto l'algoritmo T-GRPO, che incoraggia i modelli a utilizzare le informazioni temporali nei video per il ragionamento. Inoltre, invece di affidarsi esclusivamente ai dati video, integriamo dati di alta qualità per il ragionamento basato su immagini nel processo di addestramento. Abbiamo costruito due dataset: Video-R1-COT-165k per l'avvio a freddo SFT e Video-R1-260k per l'addestramento RL, entrambi composti da dati di immagini e video. I risultati sperimentali dimostrano che Video-R1 ottiene miglioramenti significativi su benchmark di ragionamento video come VideoMMMU e VSI-Bench, nonché su benchmark video generali tra cui MVBench e TempCompass, ecc. In particolare, Video-R1-7B raggiunge un'accuratezza del 35,8% sul benchmark di ragionamento spaziale video VSI-bench, superando il modello proprietario commerciale GPT-4o. Tutti i codici, i modelli e i dati sono stati rilasciati.
English
Inspired by DeepSeek-R1's success in eliciting reasoning abilities through
rule-based reinforcement learning (RL), we introduce Video-R1 as the first
attempt to systematically explore the R1 paradigm for eliciting video reasoning
within multimodal large language models (MLLMs). However, directly applying RL
training with the GRPO algorithm to video reasoning presents two primary
challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the
scarcity of high-quality video-reasoning data. To address these issues, we
first propose the T-GRPO algorithm, which encourages models to utilize temporal
information in videos for reasoning. Additionally, instead of relying solely on
video data, we incorporate high-quality image-reasoning data into the training
process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start
and Video-R1-260k for RL training, both comprising image and video data.
Experimental results demonstrate that Video-R1 achieves significant
improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as
well as on general video benchmarks including MVBench and TempCompass, etc.
Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning
benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All
codes, models, data are released.Summary
AI-Generated Summary