Video-R1: Stärkung der Video-Argumentation in MLLMs
Video-R1: Reinforcing Video Reasoning in MLLMs
March 27, 2025
Autoren: Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue
cs.AI
Zusammenfassung
Inspiriert vom Erfolg von DeepSeek-R1 bei der Förderung von Fähigkeiten zur logischen Schlussfolgerung durch regelbasiertes Reinforcement Learning (RL), stellen wir Video-R1 als ersten systematischen Versuch vor, das R1-Paradigma zur Förderung von Video-Schlussfolgerungen in multimodalen großen Sprachmodellen (MLLMs) zu erforschen. Die direkte Anwendung von RL-Training mit dem GRPO-Algorithmus auf Video-Schlussfolgerungen stellt jedoch zwei Hauptherausforderungen dar: (i) das Fehlen einer zeitlichen Modellierung für Video-Schlussfolgerungen und (ii) die Knappheit an hochwertigen Daten für Video-Schlussfolgerungen. Um diese Probleme zu lösen, schlagen wir zunächst den T-GRPO-Algorithmus vor, der Modelle dazu anregt, zeitliche Informationen in Videos für Schlussfolgerungen zu nutzen. Zusätzlich integrieren wir, anstatt uns ausschließlich auf Videodaten zu verlassen, hochwertige Bild-Schlussfolgerungsdaten in den Trainingsprozess. Wir haben zwei Datensätze erstellt: Video-R1-COT-165k für den SFT-Kaltstart und Video-R1-260k für das RL-Training, die beide Bild- und Videodaten umfassen. Experimentelle Ergebnisse zeigen, dass Video-R1 signifikante Verbesserungen bei Video-Schlussfolgerungs-Benchmarks wie VideoMMMU und VSI-Bench sowie bei allgemeinen Video-Benchmarks wie MVBench und TempCompass erzielt. Bemerkenswert ist, dass Video-R1-7B eine Genauigkeit von 35,8 % beim Video-Raum-Schlussfolgerungs-Benchmark VSI-bench erreicht und damit das kommerzielle proprietäre Modell GPT-4o übertrifft. Alle Codes, Modelle und Daten werden veröffentlicht.
English
Inspired by DeepSeek-R1's success in eliciting reasoning abilities through
rule-based reinforcement learning (RL), we introduce Video-R1 as the first
attempt to systematically explore the R1 paradigm for eliciting video reasoning
within multimodal large language models (MLLMs). However, directly applying RL
training with the GRPO algorithm to video reasoning presents two primary
challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the
scarcity of high-quality video-reasoning data. To address these issues, we
first propose the T-GRPO algorithm, which encourages models to utilize temporal
information in videos for reasoning. Additionally, instead of relying solely on
video data, we incorporate high-quality image-reasoning data into the training
process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start
and Video-R1-260k for RL training, both comprising image and video data.
Experimental results demonstrate that Video-R1 achieves significant
improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as
well as on general video benchmarks including MVBench and TempCompass, etc.
Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning
benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All
codes, models, data are released.Summary
AI-Generated Summary