Comprendere l'Addestramento di Tipo R1-Zero: Una Prospettiva Critica
Understanding R1-Zero-Like Training: A Critical Perspective
March 26, 2025
Autori: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Abstract
DeepSeek-R1-Zero ha dimostrato che l'apprendimento per rinforzo (RL) su larga scala può potenziare direttamente le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLMs) senza la necessità di un fine-tuning supervisionato. In questo lavoro, esaminiamo criticamente l'addestramento di tipo R1-Zero analizzandone i due componenti principali: i modelli di base e l'RL. Investigiamo un'ampia gamma di modelli di base, incluso DeepSeek-V3-Base, per comprendere come le caratteristiche del pre-addestramento influenzino le prestazioni dell'RL. La nostra analisi rivela che DeepSeek-V3-Base mostra già un "momento di intuizione" (Aha moment), mentre i modelli di base Qwen2.5 dimostrano forti capacità di ragionamento anche senza l'uso di template di prompt, suggerendo potenziali bias nel pre-addestramento. Inoltre, identifichiamo un bias di ottimizzazione nel Group Relative Policy Optimization (GRPO), che aumenta artificialmente la lunghezza delle risposte (specialmente per output errati) durante l'addestramento. Per affrontare questo problema, introduciamo Dr. GRPO, un metodo di ottimizzazione imparziale che migliora l'efficienza dei token mantenendo le prestazioni di ragionamento. Sfruttando queste intuizioni, presentiamo una ricetta minimalista per R1-Zero che raggiunge un'accuratezza del 43,3% su AIME 2024 con un modello di base da 7B, stabilendo un nuovo stato dell'arte. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/understand-r1-zero.
English
DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can
directly enhance the reasoning capabilities of LLMs without supervised
fine-tuning. In this work, we critically examine R1-Zero-like training by
analyzing its two core components: base models and RL. We investigate a wide
range of base models, including DeepSeek-V3-Base, to understand how pretraining
characteristics influence RL performance. Our analysis reveals that
DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models
demonstrate strong reasoning capabilities even without prompt templates,
suggesting potential pretraining biases. Additionally, we identify an
optimization bias in Group Relative Policy Optimization (GRPO), which
artificially increases response length (especially for incorrect outputs)
during training. To address this, we introduce Dr. GRPO, an unbiased
optimization method that improves token efficiency while maintaining reasoning
performance. Leveraging these insights, we present a minimalist R1-Zero recipe
that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a
new state-of-the-art. Our code is available at
https://github.com/sail-sg/understand-r1-zero.Summary
AI-Generated Summary