OpenCodeReasoning: Progressi nella Distillazione dei Dati per la Programmazione Competitiva

Abstract

Dall'avvento dei modelli linguistici di grandi dimensioni basati sul ragionamento, molti hanno ottenuto grande successo distillando le capacità di ragionamento in modelli studente. Tali tecniche hanno significativamente colmato il divario tra il ragionamento e i modelli linguistici standard (LLM) nei compiti di codifica. Nonostante ciò, gran parte dei progressi nella distillazione dei modelli di ragionamento rimane bloccata dietro dataset proprietari o manca di dettagli sulla curatela dei dati, il filtraggio e l'addestramento successivo. Per affrontare questo problema, abbiamo costruito un dataset superiore per il fine-tuning supervisionato (SFT) che utilizziamo per ottenere risultati all'avanguardia nelle capacità di codifica in modelli di varie dimensioni. I nostri modelli distillati utilizzano solo SFT per raggiungere il 61,8% su LiveCodeBench e il 24,6% su CodeContests, superando le alternative addestrate con apprendimento per rinforzo. Successivamente, analizziamo le fonti di dati utilizzate per costruire il nostro dataset, l'impatto del filtraggio tramite esecuzione del codice e l'importanza della diversità delle istruzioni/soluzioni. Osserviamo che il filtraggio tramite esecuzione ha influenzato negativamente l'accuratezza sui benchmark, portandoci a privilegiare la diversità delle istruzioni rispetto alla correttezza delle soluzioni. Infine, analizziamo anche l'efficienza dei token e i modelli di ragionamento utilizzati da questi modelli. Renderemo open-source questi dataset e i modelli distillati alla comunità.

English

Since the advent of reasoning-based large language models, many have found great success from distilling reasoning capabilities into student models. Such techniques have significantly bridged the gap between reasoning and standard LLMs on coding tasks. Despite this, much of the progress on distilling reasoning models remains locked behind proprietary datasets or lacks details on data curation, filtering and subsequent training. To address this, we construct a superior supervised fine-tuning (SFT) dataset that we use to achieve state-of-the-art coding capability results in models of various sizes. Our distilled models use only SFT to achieve 61.8% on LiveCodeBench and 24.6% on CodeContests, surpassing alternatives trained with reinforcement learning. We then perform analysis on the data sources used to construct our dataset, the impact of code execution filtering, and the importance of instruction/solution diversity. We observe that execution filtering negatively affected benchmark accuracy, leading us to prioritize instruction diversity over solution correctness. Finally, we also analyze the token efficiency and reasoning patterns utilized by these models. We will open-source these datasets and distilled models to the community.

OpenCodeReasoning: Progressi nella Distillazione dei Dati per la Programmazione Competitiva

OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Abstract

Summary

Support

Support