Erschließung der Argumentationsfähigkeit von LLMs durch skalierbare Fragegenerierung von Grund auf
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
October 24, 2024
Autoren: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Qiaoming Zhu, Min Zhang
cs.AI
Zusammenfassung
Die Verfügbarkeit von hochwertigen Daten ist einer der wichtigsten Faktoren zur Verbesserung der Schlussfolgerungsfähigkeit von LLMs. Bestehende Arbeiten haben die Wirksamkeit der Erstellung von mehr Anweisungsdaten aus Ausgangsfragen oder Wissensdatenbanken gezeigt. Aktuelle Forschungsergebnisse deuten darauf hin, dass eine kontinuierliche Skalierung der Datensynthese aus starken Modellen (z. B. GPT-4) die Schlussfolgerungsleistung weiter steigern kann. Obwohl vielversprechend, fehlt es der Open-Source-Community immer noch an hochwertigen Daten in großem Umfang und skalierbaren Datensynthesemethoden mit erschwinglichen Kosten. Um dies zu lösen, stellen wir ScaleQuest vor, eine skalierbare und innovative Datensynthesemethode, die "kleinere" (z. B. 7B) Open-Source-Modelle nutzt, um Fragen von Grund auf zu generieren, ohne auf Ausgangsdaten mit komplexen Erweiterungsbeschränkungen angewiesen zu sein. Mit dem effizienten ScaleQuest haben wir automatisch einen mathematischen Schlussfolgerungsdatensatz erstellt, der aus 1 Million Problem-Lösungs-Paaren besteht und effektiver ist als bestehende Open-Source-Datensätze. Es kann die Leistung von gängigen Open-Source-Modellen (z. B. Mistral, Llama3, DeepSeekMath und Qwen2-Math) universell steigern, indem es auf MATH Gewinne von 29,2% bis 46,4% erzielt. Bemerkenswert ist, dass allein durch Feinabstimmung des Qwen2-Math-7B-Base-Modells mit unserem Datensatz sogar Qwen2-Math-7B-Instruct übertreffen kann, ein starkes und gut ausgerichtetes Modell auf Closed-Source-Daten, sowie proprietäre Modelle wie GPT-4-Turbo und Claude-3.5 Sonnet.
English
The availability of high-quality data is one of the most important factors in
improving the reasoning capability of LLMs. Existing works have demonstrated
the effectiveness of creating more instruction data from seed questions or
knowledge bases. Recent research indicates that continually scaling up data
synthesis from strong models (e.g., GPT-4) can further elicit reasoning
performance. Though promising, the open-sourced community still lacks
high-quality data at scale and scalable data synthesis methods with affordable
costs. To address this, we introduce ScaleQuest, a scalable and novel data
synthesis method that utilizes "small-size" (e.g., 7B) open-source models to
generate questions from scratch without the need for seed data with complex
augmentation constraints. With the efficient ScaleQuest, we automatically
constructed a mathematical reasoning dataset consisting of 1 million
problem-solution pairs, which are more effective than existing open-sourced
datasets. It can universally increase the performance of mainstream open-source
models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2%
to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base
model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and
well-aligned model on closed-source data, and proprietary models such as
GPT-4-Turbo and Claude-3.5 Sonnet.Summary
AI-Generated Summary