Kimi k1.5: Skalierung von Reinforcement Learning mit LLMs

Zusammenfassung

Die Vorbereitung von Sprachmodellen durch Vorhersage des nächsten Tokens hat sich als wirksam erwiesen, um die Rechenleistung zu skalieren, ist jedoch auf die Menge der verfügbaren Trainingsdaten begrenzt. Die Skalierung des Reinforcement Learning (RL) eröffnet eine neue Dimension für die kontinuierliche Verbesserung der künstlichen Intelligenz, mit der Aussicht, dass große Sprachmodelle (LLMs) ihre Trainingsdaten durch das Erlernen von Erkundungen mit Belohnungen skalieren können. Bisherige Veröffentlichungen haben jedoch keine wettbewerbsfähigen Ergebnisse erzielt. Vor diesem Hintergrund berichten wir über die Trainingspraxis von Kimi k1.5, unserem neuesten multimodalen LLM, der mit RL trainiert wurde, einschließlich seiner RL-Trainingsmethoden, multimodalen Datenvorschriften und Infrastrukturoptimierung. Die Skalierung langer Kontexte und verbesserte Methoden zur Richtlinienoptimierung sind Schlüsselelemente unseres Ansatzes, der ein einfaches, effektives RL-Framework etabliert, ohne auf komplexere Techniken wie Monte-Carlo-Baumsuche, Wertefunktionen und Prozessbelohnungsmodelle angewiesen zu sein. Bemerkenswerterweise erreicht unser System eine Spitzenleistung bei der Argumentation über mehrere Benchmarks und Modalitäten – z. B. 77,5 bei AIME, 96,2 bei MATH 500, 94. Perzentil bei Codeforces, 74,9 bei MathVista – und entspricht damit dem Stand der Technik von OpenAI's o1. Darüber hinaus präsentieren wir effektive Long2Short-Methoden, die Long-CoT-Techniken verwenden, um Short-CoT-Modelle zu verbessern, was zu Spitzenleistungen bei der Short-CoT-Argumentation führt – z. B. 60,8 bei AIME, 94,6 bei MATH500, 47,3 bei LiveCodeBench – und bestehende Short-CoT-Modelle wie GPT-4o und Claude Sonnet 3.5 deutlich übertreffen (um bis zu +550 %).

English

Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks a new axis for the continued improvement of artificial intelligence, with the promise that large language models (LLMs) can scale their training data by learning to explore with rewards. However, prior published work has not produced competitive results. In light of this, we report on the training practice of Kimi k1.5, our latest multi-modal LLM trained with RL, including its RL training techniques, multi-modal data recipes, and infrastructure optimization. Long context scaling and improved policy optimization methods are key ingredients of our approach, which establishes a simplistic, effective RL framework without relying on more complex techniques such as Monte Carlo tree search, value functions, and process reward models. Notably, our system achieves state-of-the-art reasoning performance across multiple benchmarks and modalities -- e.g., 77.5 on AIME, 96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista -- matching OpenAI's o1. Moreover, we present effective long2short methods that use long-CoT techniques to improve short-CoT models, yielding state-of-the-art short-CoT reasoning results -- e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on LiveCodeBench -- outperforming existing short-CoT models such as GPT-4o and Claude Sonnet 3.5 by a large margin (up to +550%).

Kimi k1.5: Skalierung von Reinforcement Learning mit LLMs

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Zusammenfassung

Summary

Support

Support