ChatPaper.aiChatPaper

MegaMath: Spingere i Limiti dei Corpora Matematici Aperti

MegaMath: Pushing the Limits of Open Math Corpora

April 3, 2025
Autori: Fan Zhou, Zengzhi Wang, Nikhil Ranjan, Zhoujun Cheng, Liping Tang, Guowei He, Zhengzhong Liu, Eric P. Xing
cs.AI

Abstract

Il ragionamento matematico è un pilastro dell'intelligenza umana e un parametro di riferimento cruciale per le capacità avanzate nei grandi modelli linguistici (LLM). Tuttavia, la comunità di ricerca manca ancora di un corpus aperto, su larga scala e di alta qualità, specificamente progettato per le esigenze del pre-training di LLM incentrati sulla matematica. Presentiamo MegaMath, un dataset aperto curato da fonti diverse e focalizzate sulla matematica, seguendo queste pratiche: (1) Rivalutazione dei dati web: abbiamo riesaminato documenti matematici da Common Crawl con ottimizzazioni HTML orientate alla matematica, filtraggio basato su fasttext e deduplicazione, tutto finalizzato a ottenere dati di qualità superiore da Internet. (2) Recupero di dati di codice legati alla matematica: abbiamo identificato codice di alta qualità relativo alla matematica da un ampio corpus di addestramento di codice, Stack-V2, migliorando ulteriormente la diversità dei dati. (3) Esplorazione di dati sintetici: abbiamo sintetizzato testo in formato domanda-risposta, codice legato alla matematica e blocchi intercalati di testo e codice a partire da dati web o di codice. Integrando queste strategie e validandone l'efficacia attraverso ampie ablazioni, MegaMath offre 371 miliardi di token, rappresentando la quantità più ampia e la qualità più elevata tra i dataset aperti esistenti per il pre-training matematico.
English
Mathematical reasoning is a cornerstone of human intelligence and a key benchmark for advanced capabilities in large language models (LLMs). However, the research community still lacks an open, large-scale, high-quality corpus tailored to the demands of math-centric LLM pre-training. We present MegaMath, an open dataset curated from diverse, math-focused sources through following practices: (1) Revisiting web data: We re-extracted mathematical documents from Common Crawl with math-oriented HTML optimizations, fasttext-based filtering and deduplication, all for acquiring higher-quality data on the Internet. (2) Recalling Math-related code data: We identified high quality math-related code from large code training corpus, Stack-V2, further enhancing data diversity. (3) Exploring Synthetic data: We synthesized QA-style text, math-related code, and interleaved text-code blocks from web data or code data. By integrating these strategies and validating their effectiveness through extensive ablations, MegaMath delivers 371B tokens with the largest quantity and top quality among existing open math pre-training datasets.

Summary

AI-Generated Summary

PDF292April 7, 2025