Skywork R1V2: Multimodale Hybride Reinforcement Learning voor Redeneren
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
April 23, 2025
Auteurs: Chris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Samenvatting
Wij presenteren Skywork R1V2, een next-generation multimodaal redeneermodel en een grote sprong voorwaarts ten opzichte van zijn voorganger, Skywork R1V. De kern van R1V2 introduceert een hybride reinforcement learning-paradigma dat beloningsmodelbegeleiding combineert met regelgebaseerde strategieën, waardoor het lang bestaande probleem van het balanceren van geavanceerde redeneervaardigheden met brede generalisatie wordt aangepakt. Om de trainingsefficiëntie verder te verbeteren, stellen we het Selective Sample Buffer (SSB)-mechanisme voor, dat het "Verdwijnende Voordelen"-dilemma dat inherent is aan Group Relative Policy Optimization (GRPO) effectief tegengaat door hoogwaardige samples prioriteit te geven gedurende het optimalisatieproces. Opmerkelijk is dat we waarnemen dat overmatige reinforcement-signalen visuele hallucinaties kunnen veroorzaken—een fenomeen dat we systematisch monitoren en mitigeren door middel van gekalibreerde beloningsdrempels gedurende het trainingsproces. Empirische resultaten bevestigen de uitzonderlijke capaciteit van R1V2, met benchmarkleidende prestaties zoals 62.6 op OlympiadBench, 79.0 op AIME2024, 63.6 op LiveCodeBench, en 74.0 op MMMU. Deze resultaten onderstrepen de superioriteit van R1V2 ten opzichte van bestaande open-source modellen en tonen significante vooruitgang in het dichten van de prestatiekloof met toonaangevende propriëtaire systemen, waaronder Gemini 2.5 en OpenAI o4-mini. De Skywork R1V2 modelgewichten zijn openbaar vrijgegeven om openheid en reproduceerbaarheid te bevorderen: https://huggingface.co/Skywork/Skywork-R1V2-38B.
English
We present Skywork R1V2, a next-generation multimodal reasoning model and a
major leap forward from its predecessor, Skywork R1V. At its core, R1V2
introduces a hybrid reinforcement learning paradigm that harmonizes
reward-model guidance with rule-based strategies, thereby addressing the
long-standing challenge of balancing sophisticated reasoning capabilities with
broad generalization. To further enhance training efficiency, we propose the
Selective Sample Buffer (SSB) mechanism, which effectively counters the
``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization
(GRPO) by prioritizing high-value samples throughout the optimization process.
Notably, we observe that excessive reinforcement signals can induce visual
hallucinations--a phenomenon we systematically monitor and mitigate through
calibrated reward thresholds throughout the training process. Empirical results
affirm the exceptional capability of R1V2, with benchmark-leading performances
such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and
74.0 on MMMU. These results underscore R1V2's superiority over existing
open-source models and demonstrate significant progress in closing the
performance gap with premier proprietary systems, including Gemini 2.5 and
OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to
promote openness and reproducibility
https://huggingface.co/Skywork/Skywork-R1V2-38B.Summary
AI-Generated Summary