ChatPaper.aiChatPaper

Light-R1: Curriculum SFT, DPO und RL für langfristiges COT von Grund auf und darüber hinaus

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

March 13, 2025
Autoren: Liang Wen, Yunke Cai, Fenrui Xiao, Xin He, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang
cs.AI

Zusammenfassung

Dieses Papier präsentiert unsere Arbeit an der Light-R1-Serie, wobei Modelle, Daten und Code veröffentlicht werden. Zunächst konzentrieren wir uns auf das Training von langen COT-Modellen von Grund auf, insbesondere ausgehend von Modellen, die ursprünglich keine langen COT-Fähigkeiten besaßen. Mit einem Lehrplan-Trainingsrezept, das aus zweistufigem SFT und semi-on-policy DPO besteht, trainieren wir unser Modell Light-R1-32B aus Qwen2.5-32B-Instruct, was zu einer überlegenen mathematischen Leistung im Vergleich zu DeepSeek-R1-Distill-Qwen-32B führt. Obwohl Light-R1-32B ausschließlich auf mathematischen Daten trainiert wurde, zeigt es eine starke Generalisierung in anderen Domänen. In der anschließenden Phase dieser Arbeit heben wir den signifikanten Nutzen des für die zweite SFT-Stufe konstruierten 3k-Datensatzes zur Verbesserung anderer Modelle hervor. Durch das Feinabstimmen von DeepSeek-R1-Distilled-Modellen mit diesem Datensatz erhalten wir neue SOTA-Modelle in 7B und 14B, während das 32B-Modell, Light-R1-32B-DS, vergleichbar mit QwQ-32B und DeepSeek-R1 abschnitt. Darüber hinaus erweitern wir unsere Arbeit durch die Anwendung von Reinforcement Learning, speziell GRPO, auf lange COT-Modelle, um die Argumentationsleistung weiter zu verbessern. Wir trainieren erfolgreich unser finales Light-R1-14B-DS mit RL und erreichen SOTA-Leistung unter den 14B-Parameter-Modellen in der Mathematik. Mit AIME24- und 25-Werten von 74,0 bzw. 60,2 übertrifft Light-R1-14B-DS sogar viele 32B-Modelle und DeepSeek-R1-Distill-Llama-70B. Sein RL-Training zeigt auch das erwartete Verhalten, mit einer gleichzeitigen Zunahme der Antwortlänge und der Belohnungspunktzahl. Die Light-R1-Serie validiert das Training von langen COT-Modellen von Grund auf, zeigt die Kunst in SFT-Daten und veröffentlicht SOTA-Modelle aus RL.
English
This paper presents our work on the Light-R1 series, with models, data, and code all released. We first focus on training long COT models from scratch, specifically starting from models initially lacking long COT capabilities. Using a curriculum training recipe consisting of two-stage SFT and semi-on-policy DPO, we train our model Light-R1-32B from Qwen2.5-32B-Instruct, resulting in superior math performance compared to DeepSeek-R1-Distill-Qwen-32B. Despite being trained exclusively on math data, Light-R1-32B shows strong generalization across other domains. In the subsequent phase of this work, we highlight the significant benefit of the 3k dataset constructed for the second SFT stage on enhancing other models. By fine-tuning DeepSeek-R1-Distilled models using this dataset, we obtain new SOTA models in 7B and 14B, while the 32B model, Light-R1-32B-DS performed comparably to QwQ-32B and DeepSeek-R1. Furthermore, we extend our work by applying reinforcement learning, specifically GRPO, on long-COT models to further improve reasoning performance. We successfully train our final Light-R1-14B-DS with RL, achieving SOTA performance among 14B parameter models in math. With AIME24 & 25 scores of 74.0 and 60.2 respectively, Light-R1-14B-DS surpasses even many 32B models and DeepSeek-R1-Distill-Llama-70B. Its RL training also exhibits well expected behavior, showing simultaneous increase in response length and reward score. The Light-R1 series of work validates training long-COT models from scratch, showcases the art in SFT data and releases SOTA models from RL.

Summary

AI-Generated Summary

PDF274March 14, 2025