ChatPaper.aiChatPaper

DeepMath-103K: Un Dataset Matematico Su Larga Scala, Sfidante, Decontaminato e Verificabile per Avanzare il Ragionamento

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

April 15, 2025
Autori: Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI

Abstract

La capacità di ragionamento matematico complesso rappresenta un parametro chiave per l'intelligenza artificiale. Sebbene l'apprendimento per rinforzo (RL) applicato ai LLM mostri potenzialità, i progressi sono significativamente ostacolati dalla mancanza di dati di addestramento su larga scala che siano sufficientemente impegnativi, presentino formati di risposta verificabili adatti al RL e siano privi di contaminazione con benchmark di valutazione. Per affrontare queste limitazioni, introduciamo DeepMath-103K, un nuovo dataset su larga scala composto da circa 103K problemi matematici, progettato specificamente per addestrare modelli avanzati di ragionamento tramite RL. DeepMath-103K è stato curato attraverso una pipeline rigorosa che include l'analisi delle fonti, una rigorosa decontaminazione rispetto a numerosi benchmark e un filtraggio per elevata difficoltà (principalmente Livelli 5-9), superando significativamente le risorse aperte esistenti in termini di sfida. Ogni problema include una risposta finale verificabile, che consente l'uso di RL basato su regole, e tre soluzioni distinte generate da R1 adatte a diversi paradigmi di addestramento come il fine-tuning supervisionato o la distillazione. Coprendo un'ampia gamma di argomenti matematici, DeepMath-103K promuove lo sviluppo di un ragionamento generalizzabile. Dimostriamo che i modelli addestrati su DeepMath-103K raggiungono miglioramenti significativi su benchmark matematici impegnativi, validandone l'efficacia. Rilasciamo pubblicamente DeepMath-103K per favorire i progressi della comunità nella costruzione di sistemi di ragionamento AI più capaci: https://github.com/zwhe99/DeepMath.
English
The capacity for complex mathematical reasoning is a key benchmark for artificial intelligence. While reinforcement learning (RL) applied to LLMs shows promise, progress is significantly hindered by the lack of large-scale training data that is sufficiently challenging, possesses verifiable answer formats suitable for RL, and is free from contamination with evaluation benchmarks. To address these limitations, we introduce DeepMath-103K, a new, large-scale dataset comprising approximately 103K mathematical problems, specifically designed to train advanced reasoning models via RL. DeepMath-103K is curated through a rigorous pipeline involving source analysis, stringent decontamination against numerous benchmarks, and filtering for high difficulty (primarily Levels 5-9), significantly exceeding existing open resources in challenge. Each problem includes a verifiable final answer, enabling rule-based RL, and three distinct R1-generated solutions suitable for diverse training paradigms like supervised fine-tuning or distillation. Spanning a wide range of mathematical topics, DeepMath-103K promotes the development of generalizable reasoning. We demonstrate that models trained on DeepMath-103K achieve significant improvements on challenging mathematical benchmarks, validating its effectiveness. We release DeepMath-103K publicly to facilitate community progress in building more capable AI reasoning systems: https://github.com/zwhe99/DeepMath.

Summary

AI-Generated Summary

PDF106April 16, 2025