ChatPaper.aiChatPaper

Open-Reasoner-Zero: Un Approccio Open Source per Scalare l'Apprendimento per Rinforzo sul Modello Base

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

March 31, 2025
Autori: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI

Abstract

Presentiamo Open-Reasoner-Zero, la prima implementazione open source di un addestramento RL su larga scala orientato al ragionamento, focalizzato su scalabilità, semplicità e accessibilità. Attraverso esperimenti estesi, dimostriamo che un approccio minimalista, con PPO vanilla e GAE (lambda=1, gamma=1) e ricompense basate su regole semplici, senza alcuna regolarizzazione KL, è sufficiente per scalare sia la lunghezza delle risposte che le prestazioni nei benchmark, simile al fenomeno osservato in DeepSeek-R1-Zero. Utilizzando lo stesso modello base di DeepSeek-R1-Zero-Qwen-32B, la nostra implementazione raggiunge prestazioni superiori su AIME2024, MATH500 e il benchmark GPQA Diamond, dimostrando al contempo un'efficienza notevole – richiedendo solo un decimo dei passi di addestramento rispetto alla pipeline DeepSeek-R1-Zero. In spirito open source, rilasciamo il nostro codice sorgente, le impostazioni dei parametri, i dati di addestramento e i pesi del modello in varie dimensioni.
English
We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE (lambda=1, gamma=1) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both response length and benchmark performance, similar to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating remarkable efficiency -- requiring only a tenth of the training steps, compared to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our source code, parameter settings, training data, and model weights across various sizes.

Summary

AI-Generated Summary

PDF633April 1, 2025