SimpleRL-Zoo: Untersuchung und Zähmung von Zero Reinforcement Learning für offene Basismodelle in der Praxis
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild
March 24, 2025
Autoren: Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He
cs.AI
Zusammenfassung
DeepSeek-R1 hat gezeigt, dass lange Ketten von Denkprozessen (Chain-of-Thought, CoT) auf natürliche Weise durch ein einfaches Reinforcement-Learning (RL)-Framework mit regelbasierten Belohnungen entstehen können, wobei das Training direkt von den Basismodellen ausgehen kann – ein Paradigma, das als Zero-RL-Training bezeichnet wird. Die meisten aktuellen Bemühungen zur Reproduktion von Zero-RL-Training konzentrierten sich hauptsächlich auf die Qwen2.5-Modellreihe, die jedoch möglicherweise nicht repräsentativ ist, da wir feststellen, dass die Basismodelle bereits starke Fähigkeiten zur Befolgung von Anweisungen und zur Selbstreflexion aufweisen. In dieser Arbeit untersuchen wir Zero-RL-Training anhand von 10 verschiedenen Basismodellen, die unterschiedliche Familien und Größen umfassen, darunter LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B und alle Qwen2.5-Modelle von 0.5B bis 32B. Durch die Nutzung mehrerer Schlüsselstrategien – wie die Anpassung des Format-Belohnungssystems und die Steuerung der Abfrageschwierigkeit – erzielen wir erhebliche Verbesserungen sowohl in der Genauigkeit der Schlussfolgerungen als auch in der Antwortlänge in den meisten Szenarien. Durch die sorgfältige Überwachung der Trainingsdynamik stellen wir jedoch fest, dass verschiedene Basismodelle während des Trainings unterschiedliche Muster aufweisen. Beispielsweise korreliert die erhöhte Antwortlänge nicht immer mit dem Auftreten bestimmter kognitiver Verhaltensweisen wie der Überprüfung (d. h. dem „Aha-Moment“). Bemerkenswerterweise beobachten wir den „Aha-Moment“ erstmals in kleinen Modellen, die nicht zur Qwen-Familie gehören. Wir teilen die Schlüsseldesigns, die ein erfolgreiches Zero-RL-Training ermöglichen, sowie unsere Erkenntnisse und Praktiken. Um weitere Forschungen zu erleichtern, stellen wir den Code, die Modelle und die Analysetools als Open Source zur Verfügung.
English
DeepSeek-R1 has shown that long chain-of-thought (CoT) reasoning can
naturally emerge through a simple reinforcement learning (RL) framework with
rule-based rewards, where the training may directly start from the base
models-a paradigm referred to as zero RL training. Most recent efforts to
reproduce zero RL training have primarily focused on the Qwen2.5 model series,
which may not be representative as we find the base models already exhibit
strong instruction-following and self-reflection abilities. In this work, we
investigate zero RL training across 10 diverse base models, spanning different
families and sizes including LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B,
Qwen2.5-math-7B, and all Qwen2.5 models from 0.5B to 32B. Leveraging several
key design strategies-such as adjusting format reward and controlling query
difficulty-we achieve substantial improvements in both reasoning accuracy and
response length across most settings. However, by carefully monitoring the
training dynamics, we observe that different base models exhibit distinct
patterns during training. For instance, the increased response length does not
always correlate with the emergence of certain cognitive behaviors such as
verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for
the first time in small models not from the Qwen family. We share the key
designs that enable successful zero RL training, along with our findings and
practices. To facilitate further research, we open-source the code, models, and
analysis tools.Summary
AI-Generated Summary