Het ontketenen van het redeneervermogen van LLM's via schaalbare vraagsynthese vanaf nul.
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
October 24, 2024
Auteurs: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Qiaoming Zhu, Min Zhang
cs.AI
Samenvatting
De beschikbaarheid van hoogwaardige gegevens is een van de belangrijkste factoren bij het verbeteren van de redeneermogelijkheden van LLM's. Bestaande werken hebben de effectiviteit aangetoond van het creëren van meer instructiegegevens uit startvragen of kennisbanken. Recente onderzoeken geven aan dat het voortdurend opschalen van gegevenssynthese van sterke modellen (bijv. GPT-4) verdere redeneerprestaties kan oproepen. Hoewel veelbelovend, ontbreekt het de open-source gemeenschap nog steeds aan hoogwaardige gegevens op schaal en schaalbare gegevenssynthesemethoden met betaalbare kosten. Om dit aan te pakken, introduceren we ScaleQuest, een schaalbare en innovatieve gegevenssynthesemethode die gebruikmaakt van "kleinschalige" (bijv. 7B) open-source modellen om vragen vanaf nul te genereren zonder de noodzaak van startgegevens met complexe augmentatiebeperkingen. Met de efficiënte ScaleQuest hebben we automatisch een dataset voor wiskundig redeneren samengesteld, bestaande uit 1 miljoen probleem-oplossing-paren, die effectiever zijn dan bestaande open-source datasets. Het kan universeel de prestaties van gangbare open-source modellen (d.w.z. Mistral, Llama3, DeepSeekMath en Qwen2-Math) verbeteren door 29,2% tot 46,4% winst op MATH te behalen. Opmerkelijk is dat door eenvoudigweg de Qwen2-Math-7B-Base model met onze dataset af te stemmen, zelfs Qwen2-Math-7B-Instruct, een sterk en goed uitgelijnd model op gesloten-source gegevens, en eigen modellen zoals GPT-4-Turbo en Claude-3.5 Sonnet kan overtreffen.
English
The availability of high-quality data is one of the most important factors in
improving the reasoning capability of LLMs. Existing works have demonstrated
the effectiveness of creating more instruction data from seed questions or
knowledge bases. Recent research indicates that continually scaling up data
synthesis from strong models (e.g., GPT-4) can further elicit reasoning
performance. Though promising, the open-sourced community still lacks
high-quality data at scale and scalable data synthesis methods with affordable
costs. To address this, we introduce ScaleQuest, a scalable and novel data
synthesis method that utilizes "small-size" (e.g., 7B) open-source models to
generate questions from scratch without the need for seed data with complex
augmentation constraints. With the efficient ScaleQuest, we automatically
constructed a mathematical reasoning dataset consisting of 1 million
problem-solution pairs, which are more effective than existing open-sourced
datasets. It can universally increase the performance of mainstream open-source
models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2%
to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base
model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and
well-aligned model on closed-source data, and proprietary models such as
GPT-4-Turbo and Claude-3.5 Sonnet.Summary
AI-Generated Summary