Libérer la capacité de raisonnement des LLM grâce à la synthèse évolutive de questions à partir de zéro
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
October 24, 2024
Auteurs: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Qiaoming Zhu, Min Zhang
cs.AI
Résumé
La disponibilité de données de haute qualité est l'un des facteurs les plus importants pour améliorer la capacité de raisonnement des LLMs. Les travaux existants ont démontré l'efficacité de la création de données d'instruction supplémentaires à partir de questions de départ ou de bases de connaissances. Des recherches récentes indiquent que l'augmentation continue de la synthèse de données à partir de modèles puissants (par exemple, GPT-4) peut encore stimuler les performances de raisonnement. Bien que prometteuse, la communauté open source manque encore de données de haute qualité à grande échelle et de méthodes de synthèse de données évolutives à coûts abordables. Pour remédier à cela, nous présentons ScaleQuest, une méthode de synthèse de données évolutive et novatrice qui utilise des modèles open source de "petite taille" (par exemple, 7B) pour générer des questions à partir de zéro sans avoir besoin de données de départ avec des contraintes d'augmentation complexes. Avec l'efficacité de ScaleQuest, nous avons automatiquement construit un ensemble de données de raisonnement mathématique composé d'un million de paires problème-solution, qui sont plus efficaces que les ensembles de données open source existants. Cela peut augmenter de manière universelle les performances des modèles open source principaux (c'est-à-dire Mistral, Llama3, DeepSeekMath et Qwen2-Math) en réalisant des gains de 29,2 % à 46,4 % sur MATH. Notamment, simplement en affinant le modèle Qwen2-Math-7B-Base avec notre ensemble de données, il peut même surpasser Qwen2-Math-7B-Instruct, un modèle solide et bien aligné sur des données propriétaires, ainsi que des modèles tels que GPT-4-Turbo et Claude-3.5 Sonnet.
English
The availability of high-quality data is one of the most important factors in
improving the reasoning capability of LLMs. Existing works have demonstrated
the effectiveness of creating more instruction data from seed questions or
knowledge bases. Recent research indicates that continually scaling up data
synthesis from strong models (e.g., GPT-4) can further elicit reasoning
performance. Though promising, the open-sourced community still lacks
high-quality data at scale and scalable data synthesis methods with affordable
costs. To address this, we introduce ScaleQuest, a scalable and novel data
synthesis method that utilizes "small-size" (e.g., 7B) open-source models to
generate questions from scratch without the need for seed data with complex
augmentation constraints. With the efficient ScaleQuest, we automatically
constructed a mathematical reasoning dataset consisting of 1 million
problem-solution pairs, which are more effective than existing open-sourced
datasets. It can universally increase the performance of mainstream open-source
models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2%
to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base
model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and
well-aligned model on closed-source data, and proprietary models such as
GPT-4-Turbo and Claude-3.5 Sonnet.Summary
AI-Generated Summary