Kimi k1.5: Schalen van Reinforcement Learning met LLM's

Samenvatting

Het vooraf trainen van taalmodellen met voorspelling van het volgende token is effectief gebleken voor het schalen van berekeningen, maar is beperkt tot de hoeveelheid beschikbare trainingsdata. Het schalen van reinforcement learning (RL) ontsluit een nieuwe dimensie voor de voortdurende verbetering van kunstmatige intelligentie, met de belofte dat grote taalmodellen (LLMs) hun trainingsdata kunnen vergroten door te leren verkennen met beloningen. Echter, eerder gepubliceerd werk heeft geen competitieve resultaten opgeleverd. In het licht hiervan rapporteren we over de trainingspraktijk van Kimi k1.5, ons nieuwste multimodale LLM getraind met RL, inclusief de RL-trainingsmethoden, multimodale datarecepten en infrastructuuroptimalisatie. Het schalen van lange context en verbeterde beleidsoptimalisatiemethoden zijn sleutelingrediënten van onze aanpak, die een eenvoudig, effectief RL-framework vestigt zonder te vertrouwen op complexere technieken zoals Monte Carlo-boomzoekingen, waardefuncties en procesbeloningsmodellen. Opmerkelijk genoeg behaalt ons systeem toonaangevende redeneerprestaties over meerdere benchmarks en modaliteiten - bijv. 77.5 op AIME, 96.2 op MATH 500, 94e percentiel op Codeforces, 74.9 op MathVista - vergelijkbaar met OpenAI's o1. Bovendien presenteren we effectieve lange-naar-korte methoden die lange-CoT-technieken gebruiken om korte-CoT-modellen te verbeteren, wat toonaangevende resultaten oplevert in korte-CoT-redenering - bijv. 60.8 op AIME, 94.6 op MATH500, 47.3 op LiveCodeBench - waarbij bestaande korte-CoT-modellen zoals GPT-4o en Claude Sonnet 3.5 ver overtreffen (tot +550%).

English

Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks a new axis for the continued improvement of artificial intelligence, with the promise that large language models (LLMs) can scale their training data by learning to explore with rewards. However, prior published work has not produced competitive results. In light of this, we report on the training practice of Kimi k1.5, our latest multi-modal LLM trained with RL, including its RL training techniques, multi-modal data recipes, and infrastructure optimization. Long context scaling and improved policy optimization methods are key ingredients of our approach, which establishes a simplistic, effective RL framework without relying on more complex techniques such as Monte Carlo tree search, value functions, and process reward models. Notably, our system achieves state-of-the-art reasoning performance across multiple benchmarks and modalities -- e.g., 77.5 on AIME, 96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista -- matching OpenAI's o1. Moreover, we present effective long2short methods that use long-CoT techniques to improve short-CoT models, yielding state-of-the-art short-CoT reasoning results -- e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on LiveCodeBench -- outperforming existing short-CoT models such as GPT-4o and Claude Sonnet 3.5 by a large margin (up to +550%).

Kimi k1.5: Schalen van Reinforcement Learning met LLM's

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Samenvatting

Summary

Support