ChatPaper.aiChatPaper

SimpleRL-Zoo: Indagare e Domare l'Apprendimento per Rinforzo Zero per Modelli di Base Aperti in Ambiente Reale

SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

March 24, 2025
Autori: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
cs.AI

Abstract

DeepSeek-R1 ha dimostrato che il ragionamento a catena di pensiero (CoT) lungo può emergere naturalmente attraverso un semplice framework di apprendimento per rinforzo (RL) con ricompense basate su regole, dove l'addestramento può iniziare direttamente dai modelli di base—un paradigma denominato zero RL training. La maggior parte degli sforzi recenti per riprodurre lo zero RL training si è concentrata principalmente sulla serie di modelli Qwen2.5, che potrebbe non essere rappresentativa poiché abbiamo osservato che i modelli di base mostrano già forti capacità di seguire istruzioni e di auto-riflessione. In questo lavoro, investigiamo lo zero RL training su 10 modelli di base diversi, che coprono diverse famiglie e dimensioni, tra cui LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B e tutti i modelli Qwen2.5 da 0.5B a 32B. Sfruttando diverse strategie di progettazione chiave—come l'aggiustamento della ricompensa di formato e il controllo della difficoltà delle query—otteniamo miglioramenti sostanziali sia nell'accuratezza del ragionamento che nella lunghezza della risposta nella maggior parte delle configurazioni. Tuttavia, monitorando attentamente le dinamiche di addestramento, osserviamo che diversi modelli di base mostrano pattern distinti durante l'addestramento. Ad esempio, l'aumento della lunghezza della risposta non è sempre correlato con l'emergere di determinati comportamenti cognitivi come la verifica (cioè, il "momento aha"). In particolare, osserviamo il "momento aha" per la prima volta in modelli piccoli non appartenenti alla famiglia Qwen. Condividiamo i progetti chiave che consentono uno zero RL training di successo, insieme alle nostre scoperte e pratiche. Per facilitare ulteriori ricerche, rendiamo open-source il codice, i modelli e gli strumenti di analisi.
English
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can naturally emerge through a simple reinforcement learning (RL) framework with rule-based rewards, where the training may directly start from the base models-a paradigm referred to as zero RL training. Most recent efforts to reproduce zero RL training have primarily focused on the Qwen2.5 model series, which may not be representative as we find the base models already exhibit strong instruction-following and self-reflection abilities. In this work, we investigate zero RL training across 10 diverse base models, spanning different families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several key design strategies-such as adjusting format reward and controlling query difficulty-we achieve substantial improvements in both reasoning accuracy and response length across most settings. However, by carefully monitoring the training dynamics, we observe that different base models exhibit distinct patterns during training. For instance, the increased response length does not always correlate with the emergence of certain cognitive behaviors such as verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for the first time in small models not from the Qwen family. We share the key designs that enable successful zero RL training, along with our findings and practices. To facilitate further research, we open-source the code, models, and analysis tools.

Summary

AI-Generated Summary

PDF301March 25, 2025