Skywork R1V2: Multimodales hybrides Reinforcement Learning für Reasoning
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
April 23, 2025
Autoren: Chris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Zusammenfassung
Wir präsentieren Skywork R1V2, ein multimodales Reasoning-Modell der nächsten Generation und einen bedeutenden Fortschritt gegenüber seinem Vorgänger, Skywork R1V. Im Kern von R1V2 wird ein hybrides Reinforcement-Learning-Paradigma eingeführt, das die Anleitung durch Reward-Modelle mit regelbasierten Strategien harmonisiert und damit die langjährige Herausforderung adressiert, anspruchsvolle Reasoning-Fähigkeiten mit breiter Generalisierung in Einklang zu bringen. Um die Trainings effizienz weiter zu steigern, schlagen wir den Selective Sample Buffer (SSB)-Mechanismus vor, der das „Vanishing Advantages“-Dilemma, das in der Group Relative Policy Optimization (GRPO) inhärent ist, effektiv bekämpft, indem er hochwertige Samples während des Optimierungsprozesses priorisiert. Bemerkenswerterweise beobachten wir, dass übermäßige Reinforcement-Signale visuelle Halluzinationen auslösen können – ein Phänomen, das wir systematisch überwachen und durch kalibrierte Reward-Schwellen während des Trainingsprozesses abmildern. Empirische Ergebnisse bestätigen die außergewöhnliche Fähigkeit von R1V2 mit Benchmark-führenden Leistungen wie 62,6 auf OlympiadBench, 79,0 auf AIME2024, 63,6 auf LiveCodeBench und 74,0 auf MMMU. Diese Ergebnisse unterstreichen die Überlegenheit von R1V2 gegenüber bestehenden Open-Source-Modellen und zeigen signifikante Fortschritte bei der Schließung der Leistungslücke zu führenden proprietären Systemen, einschließlich Gemini 2.5 und OpenAI o4-mini. Die Modellgewichte von Skywork R1V2 wurden öffentlich freigegeben, um Offenheit und Reproduzierbarkeit zu fördern: https://huggingface.co/Skywork/Skywork-R1V2-38B.
English
We present Skywork R1V2, a next-generation multimodal reasoning model and a
major leap forward from its predecessor, Skywork R1V. At its core, R1V2
introduces a hybrid reinforcement learning paradigm that harmonizes
reward-model guidance with rule-based strategies, thereby addressing the
long-standing challenge of balancing sophisticated reasoning capabilities with
broad generalization. To further enhance training efficiency, we propose the
Selective Sample Buffer (SSB) mechanism, which effectively counters the
``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization
(GRPO) by prioritizing high-value samples throughout the optimization process.
Notably, we observe that excessive reinforcement signals can induce visual
hallucinations--a phenomenon we systematically monitor and mitigate through
calibrated reward thresholds throughout the training process. Empirical results
affirm the exceptional capability of R1V2, with benchmark-leading performances
such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and
74.0 on MMMU. These results underscore R1V2's superiority over existing
open-source models and demonstrate significant progress in closing the
performance gap with premier proprietary systems, including Gemini 2.5 and
OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to
promote openness and reproducibility
https://huggingface.co/Skywork/Skywork-R1V2-38B.Summary
AI-Generated Summary