ChatPaper.aiChatPaper

Skywork R1V2: Multimodales hybrides Reinforcement Learning für Reasoning

Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

April 23, 2025
Autoren: Chris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Zusammenfassung

Wir präsentieren Skywork R1V2, ein multimodales Reasoning-Modell der nächsten Generation und einen bedeutenden Fortschritt gegenüber seinem Vorgänger, Skywork R1V. Im Kern von R1V2 wird ein hybrides Reinforcement-Learning-Paradigma eingeführt, das die Anleitung durch Reward-Modelle mit regelbasierten Strategien harmonisiert und damit die langjährige Herausforderung adressiert, anspruchsvolle Reasoning-Fähigkeiten mit breiter Generalisierung in Einklang zu bringen. Um die Trainings effizienz weiter zu steigern, schlagen wir den Selective Sample Buffer (SSB)-Mechanismus vor, der das „Vanishing Advantages“-Dilemma, das in der Group Relative Policy Optimization (GRPO) inhärent ist, effektiv bekämpft, indem er hochwertige Samples während des Optimierungsprozesses priorisiert. Bemerkenswerterweise beobachten wir, dass übermäßige Reinforcement-Signale visuelle Halluzinationen auslösen können – ein Phänomen, das wir systematisch überwachen und durch kalibrierte Reward-Schwellen während des Trainingsprozesses abmildern. Empirische Ergebnisse bestätigen die außergewöhnliche Fähigkeit von R1V2 mit Benchmark-führenden Leistungen wie 62,6 auf OlympiadBench, 79,0 auf AIME2024, 63,6 auf LiveCodeBench und 74,0 auf MMMU. Diese Ergebnisse unterstreichen die Überlegenheit von R1V2 gegenüber bestehenden Open-Source-Modellen und zeigen signifikante Fortschritte bei der Schließung der Leistungslücke zu führenden proprietären Systemen, einschließlich Gemini 2.5 und OpenAI o4-mini. Die Modellgewichte von Skywork R1V2 wurden öffentlich freigegeben, um Offenheit und Reproduzierbarkeit zu fördern: https://huggingface.co/Skywork/Skywork-R1V2-38B.
English
We present Skywork R1V2, a next-generation multimodal reasoning model and a major leap forward from its predecessor, Skywork R1V. At its core, R1V2 introduces a hybrid reinforcement learning paradigm that harmonizes reward-model guidance with rule-based strategies, thereby addressing the long-standing challenge of balancing sophisticated reasoning capabilities with broad generalization. To further enhance training efficiency, we propose the Selective Sample Buffer (SSB) mechanism, which effectively counters the ``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization (GRPO) by prioritizing high-value samples throughout the optimization process. Notably, we observe that excessive reinforcement signals can induce visual hallucinations--a phenomenon we systematically monitor and mitigate through calibrated reward thresholds throughout the training process. Empirical results affirm the exceptional capability of R1V2, with benchmark-leading performances such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and 74.0 on MMMU. These results underscore R1V2's superiority over existing open-source models and demonstrate significant progress in closing the performance gap with premier proprietary systems, including Gemini 2.5 and OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to promote openness and reproducibility https://huggingface.co/Skywork/Skywork-R1V2-38B.

Summary

AI-Generated Summary

PDF421April 28, 2025