DAPO: Ein Open-Source-System für Reinforcement Learning mit großen Sprachmodellen im großen Maßstab
DAPO: An Open-Source LLM Reinforcement Learning System at Scale
March 18, 2025
Autoren: Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang
cs.AI
Zusammenfassung
Inference Scaling verleiht LLMs beispiellose Fähigkeiten im logischen Denken, wobei Reinforcement Learning die zentrale Technik ist, um komplexe Schlussfolgerungen zu ermöglichen. Allerdings bleiben wichtige technische Details von state-of-the-art Reasoning-LLMs verborgen (wie beispielsweise im OpenAI o1-Blog und im DeepSeek R1-Technical Report), weshalb die Community weiterhin Schwierigkeiten hat, deren RL-Trainingsergebnisse zu reproduzieren. Wir schlagen den Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO)-Algorithmus vor und stellen ein vollständig quelloffenes, state-of-the-art, großskaliges RL-System zur Verfügung, das mit dem Qwen2.5-32B-Basismodell 50 Punkte auf AIME 2024 erreicht. Im Gegensatz zu früheren Arbeiten, die Trainingsdetails zurückhalten, führen wir vier Schlüsseltechniken unseres Algorithmus ein, die großskaliges LLM-RL erfolgreich machen. Darüber hinaus veröffentlichen wir unseren Trainingscode, der auf dem verl-Framework basiert, sowie einen sorgfältig kuratierten und aufbereiteten Datensatz. Diese Komponenten unseres quelloffenen Systems verbessern die Reproduzierbarkeit und unterstützen zukünftige Forschung im Bereich großskaliger LLM-RL.
English
Inference scaling empowers LLMs with unprecedented reasoning ability, with
reinforcement learning as the core technique to elicit complex reasoning.
However, key technical details of state-of-the-art reasoning LLMs are concealed
(such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the
community still struggles to reproduce their RL training results. We propose
the Decoupled Clip and Dynamic sAmpling
Policy Optimization (DAPO) algorithm, and
fully open-source a state-of-the-art large-scale RL system that achieves 50
points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that
withhold training details, we introduce four key techniques of our algorithm
that make large-scale LLM RL a success. In addition, we open-source our
training code, which is built on the verl framework, along with a carefully
curated and processed dataset. These components of our open-source system
enhance reproducibility and support future research in large-scale LLM RL.Summary
AI-Generated Summary