Sbloccare la capacità di ragionamento dei LLM tramite la sintesi scalabile di domande da zero
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
October 24, 2024
Autori: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Qiaoming Zhu, Min Zhang
cs.AI
Abstract
La disponibilità di dati di alta qualità è uno dei fattori più importanti per migliorare la capacità di ragionamento dei LLM. Lavori esistenti hanno dimostrato l'efficacia della creazione di dati di istruzione aggiuntivi da domande iniziali o basi di conoscenza. Ricerche recenti indicano che l'incremento continuo della sintesi dati da modelli potenti (ad es. GPT-4) può ulteriormente stimolare le performance di ragionamento. Nonostante le promesse, la comunità open-source manca ancora di dati di alta qualità su larga scala e di metodi di sintesi dati scalabili a costi accessibili. Per affrontare questo problema, presentiamo ScaleQuest, un metodo di sintesi dati scalabile e innovativo che utilizza modelli open-source di "piccole dimensioni" (ad es. 7B) per generare domande da zero senza la necessità di dati iniziali con vincoli di complessa ampliamento. Con l'efficiente ScaleQuest, abbiamo automaticamente costruito un dataset di ragionamento matematico composto da 1 milione di coppie problema-soluzione, che sono più efficaci rispetto ai dataset open-source esistenti. Questo può aumentare universalmente le performance dei modelli open-source mainstream (come Mistral, Llama3, DeepSeekMath e Qwen2-Math) ottenendo guadagni dal 29,2% al 46,4% su MATH. Degno di nota è che semplicemente raffinando il modello Qwen2-Math-7B-Base con il nostro dataset è possibile superare addirittura Qwen2-Math-7B-Instruct, un modello forte e ben allineato su dati closed-source, e modelli proprietari come GPT-4-Turbo e Claude-3.5 Sonnet.
English
The availability of high-quality data is one of the most important factors in
improving the reasoning capability of LLMs. Existing works have demonstrated
the effectiveness of creating more instruction data from seed questions or
knowledge bases. Recent research indicates that continually scaling up data
synthesis from strong models (e.g., GPT-4) can further elicit reasoning
performance. Though promising, the open-sourced community still lacks
high-quality data at scale and scalable data synthesis methods with affordable
costs. To address this, we introduce ScaleQuest, a scalable and novel data
synthesis method that utilizes "small-size" (e.g., 7B) open-source models to
generate questions from scratch without the need for seed data with complex
augmentation constraints. With the efficient ScaleQuest, we automatically
constructed a mathematical reasoning dataset consisting of 1 million
problem-solution pairs, which are more effective than existing open-sourced
datasets. It can universally increase the performance of mainstream open-source
models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2%
to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base
model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and
well-aligned model on closed-source data, and proprietary models such as
GPT-4-Turbo and Claude-3.5 Sonnet.Summary
AI-Generated Summary