ChatPaper.aiChatPaper

Kimi k1.5: LLMs를 활용한 강화 학습 확장

Kimi k1.5: Scaling Reinforcement Learning with LLMs

January 22, 2025
저자: Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang
cs.AI

초록

다음 토큰 예측을 사용한 언어 모델 사전 훈련은 컴퓨팅 확장에 효과적임이 입증되었지만 사용 가능한 훈련 데이터 양에 한계가 있습니다. 강화 학습(RL) 확장은 인공 지능의 지속적인 개선을 위한 새로운 축을 열어주며, 대형 언어 모델(LLM)이 보상을 통해 탐색을 학습하여 훈련 데이터를 확장할 수 있다는 약속이 있습니다. 그러나 이전의 발표된 연구는 경쟁력 있는 결과를 내지 못했습니다. 이에 우리는 Kimi k1.5의 훈련 방법에 대해 보고합니다. 최신 멀티 모달 LLM은 RL로 훈련되었으며, RL 훈련 기술, 멀티 모달 데이터 레시피, 그리고 인프라 최적화를 포함합니다. 긴 문맥 확장과 개선된 정책 최적화 방법은 우리의 접근의 주요 구성 요소로, 몬테카를로 트리 탐색, 가치 함수, 그리고 프로세스 보상 모델과 같은 더 복잡한 기술에 의존하지 않고 간단하고 효과적인 RL 프레임워크를 수립합니다. 특히, 우리 시스템은 다양한 벤치마크와 모달리티에서 최첨단 추론 성능을 달성하며, AIME에서 77.5, MATH 500에서 96.2, Codeforces에서 94번째 백분위, MathVista에서 74.9 등의 결과를 달성하여 OpenAI의 o1과 일치합니다. 더불어, 우리는 긴-CoT 기술을 활용하여 짧은-CoT 모델을 개선하는 효과적인 long2short 방법을 제시하며, 이를 통해 AIME에서 60.8, MATH500에서 94.6, LiveCodeBench에서 47.3 등의 최첨단 짧은-CoT 추론 결과를 달성하여 GPT-4o와 Claude Sonnet 3.5와 같은 기존 짧은-CoT 모델을 큰 폭으로 앞지르고 있습니다(+550%까지).
English
Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks a new axis for the continued improvement of artificial intelligence, with the promise that large language models (LLMs) can scale their training data by learning to explore with rewards. However, prior published work has not produced competitive results. In light of this, we report on the training practice of Kimi k1.5, our latest multi-modal LLM trained with RL, including its RL training techniques, multi-modal data recipes, and infrastructure optimization. Long context scaling and improved policy optimization methods are key ingredients of our approach, which establishes a simplistic, effective RL framework without relying on more complex techniques such as Monte Carlo tree search, value functions, and process reward models. Notably, our system achieves state-of-the-art reasoning performance across multiple benchmarks and modalities -- e.g., 77.5 on AIME, 96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista -- matching OpenAI's o1. Moreover, we present effective long2short methods that use long-CoT techniques to improve short-CoT models, yielding state-of-the-art short-CoT reasoning results -- e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on LiveCodeBench -- outperforming existing short-CoT models such as GPT-4o and Claude Sonnet 3.5 by a large margin (up to +550%).

Summary

AI-Generated Summary

PDF976January 23, 2025