ChatPaper.aiChatPaper

Skywork R1V2 : Apprentissage par Renforcement Hybride Multimodal pour le Raisonnement

Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

April 23, 2025
Auteurs: Chris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Résumé

Nous présentons Skywork R1V2, un modèle de raisonnement multimodal de nouvelle génération et un bond en avant majeur par rapport à son prédécesseur, Skywork R1V. Au cœur de R1V2 se trouve un paradigme hybride d'apprentissage par renforcement qui harmonise les directives du modèle de récompense avec des stratégies basées sur des règles, abordant ainsi le défi de longue date consistant à équilibrer des capacités de raisonnement sophistiquées avec une généralisation étendue. Pour améliorer davantage l'efficacité de l'entraînement, nous proposons le mécanisme de Tampon d'Échantillons Sélectifs (Selective Sample Buffer, SSB), qui contrecarre efficacement le dilemme des « Avantages Disparus » inhérent à l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) en priorisant les échantillons à haute valeur tout au long du processus d'optimisation. Notamment, nous observons que des signaux de renforcement excessifs peuvent induire des hallucinations visuelles—un phénomène que nous surveillons et atténuons systématiquement grâce à des seuils de récompense calibrés durant l'entraînement. Les résultats empiriques confirment les capacités exceptionnelles de R1V2, avec des performances de pointe telles que 62,6 sur OlympiadBench, 79,0 sur AIME2024, 63,6 sur LiveCodeBench et 74,0 sur MMMU. Ces résultats soulignent la supériorité de R1V2 par rapport aux modèles open-source existants et démontrent des progrès significatifs dans la réduction de l'écart de performance avec les systèmes propriétaires de premier plan, notamment Gemini 2.5 et OpenAI o4-mini. Les poids du modèle Skywork R1V2 ont été rendus publics pour promouvoir l'ouverture et la reproductibilité https://huggingface.co/Skywork/Skywork-R1V2-38B.
English
We present Skywork R1V2, a next-generation multimodal reasoning model and a major leap forward from its predecessor, Skywork R1V. At its core, R1V2 introduces a hybrid reinforcement learning paradigm that harmonizes reward-model guidance with rule-based strategies, thereby addressing the long-standing challenge of balancing sophisticated reasoning capabilities with broad generalization. To further enhance training efficiency, we propose the Selective Sample Buffer (SSB) mechanism, which effectively counters the ``Vanishing Advantages'' dilemma inherent in Group Relative Policy Optimization (GRPO) by prioritizing high-value samples throughout the optimization process. Notably, we observe that excessive reinforcement signals can induce visual hallucinations--a phenomenon we systematically monitor and mitigate through calibrated reward thresholds throughout the training process. Empirical results affirm the exceptional capability of R1V2, with benchmark-leading performances such as 62.6 on OlympiadBench, 79.0 on AIME2024, 63.6 on LiveCodeBench, and 74.0 on MMMU. These results underscore R1V2's superiority over existing open-source models and demonstrate significant progress in closing the performance gap with premier proprietary systems, including Gemini 2.5 and OpenAI o4-mini. The Skywork R1V2 model weights have been publicly released to promote openness and reproducibility https://huggingface.co/Skywork/Skywork-R1V2-38B.

Summary

AI-Generated Summary

PDF431April 28, 2025