DeepMath-103K: Un Dataset Matematico Su Larga Scala, Sfidante, Decontaminato e Verificabile per Avanzare il Ragionamento

Abstract

La capacità di ragionamento matematico complesso rappresenta un parametro chiave per l'intelligenza artificiale. Sebbene l'apprendimento per rinforzo (RL) applicato ai LLM mostri potenzialità, i progressi sono significativamente ostacolati dalla mancanza di dati di addestramento su larga scala che siano sufficientemente impegnativi, presentino formati di risposta verificabili adatti al RL e siano privi di contaminazione con benchmark di valutazione. Per affrontare queste limitazioni, introduciamo DeepMath-103K, un nuovo dataset su larga scala composto da circa 103K problemi matematici, progettato specificamente per addestrare modelli avanzati di ragionamento tramite RL. DeepMath-103K è stato curato attraverso una pipeline rigorosa che include l'analisi delle fonti, una rigorosa decontaminazione rispetto a numerosi benchmark e un filtraggio per elevata difficoltà (principalmente Livelli 5-9), superando significativamente le risorse aperte esistenti in termini di sfida. Ogni problema include una risposta finale verificabile, che consente l'uso di RL basato su regole, e tre soluzioni distinte generate da R1 adatte a diversi paradigmi di addestramento come il fine-tuning supervisionato o la distillazione. Coprendo un'ampia gamma di argomenti matematici, DeepMath-103K promuove lo sviluppo di un ragionamento generalizzabile. Dimostriamo che i modelli addestrati su DeepMath-103K raggiungono miglioramenti significativi su benchmark matematici impegnativi, validandone l'efficacia. Rilasciamo pubblicamente DeepMath-103K per favorire i progressi della comunità nella costruzione di sistemi di ragionamento AI più capaci: https://github.com/zwhe99/DeepMath.

English

The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

DeepMath-103K: Un Dataset Matematico Su Larga Scala, Sfidante, Decontaminato e Verificabile per Avanzare il Ragionamento

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

Abstract

Summary

Support

Support