LLM의 추론 능력을 확장하기 위한 확장 가능한 질문 합성 방법의 구현

Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch

October 24, 2024
저자: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Qiaoming Zhu, Min Zhang
cs.AI

초록

고품질 데이터의 가용성은 LLM의 추론 능력을 향상시키는 데 가장 중요한 요소 중 하나입니다. 기존 연구는 시드 질문이나 지식 베이스에서 더 많은 지시 데이터를 생성하는 효과를 입증해 왔습니다. 최근 연구에 따르면 강력한 모델(예: GPT-4)에서 데이터 합성을 지속적으로 확장함으로써 추론 성능을 더욱 끌어올릴 수 있다는 것을 보여줍니다. 약속이 있지만, 오픈 소스 커뮤니티는 여전히 대규모이고 비용 효율적인 확장 가능한 데이터 합성 방법과 고품질 데이터가 부족합니다. 이를 해결하기 위해 우리는 ScaleQuest를 소개합니다. 이는 "소형" (예: 7B) 오픈 소스 모델을 활용하여 복잡한 증가 제약 조건이 필요 없이 처음부터 질문을 생성하는 확장 가능하고 혁신적인 데이터 합성 방법입니다. 효율적인 ScaleQuest를 사용하여 우리는 수학적 추론 데이터 세트를 자동으로 생성했는데, 이는 기존 오픈 소스 데이터 세트보다 더 효과적입니다. 이는 MATH에서 Mistral, Llama3, DeepSeekMath, 그리고 Qwen2-Math와 같은 주류 오픈 소스 모델의 성능을 29.2%에서 46.4% 향상시킬 수 있습니다. 특히, 우리 데이터 세트로 단순히 Qwen2-Math-7B-Base 모델을 파인 튜닝하면 Qwen2-Math-7B-Instruct와 같은 강력하고 잘 맞춘 폐쇄 소스 데이터 모델, 그리고 GPT-4-Turbo와 Claude-3.5 Sonnet과 같은 독점 모델을 능가할 수 있습니다.
English
The availability of high-quality data is one of the most important factors in improving the reasoning capability of LLMs. Existing works have demonstrated the effectiveness of creating more instruction data from seed questions or knowledge bases. Recent research indicates that continually scaling up data synthesis from strong models (e.g., GPT-4) can further elicit reasoning performance. Though promising, the open-sourced community still lacks high-quality data at scale and scalable data synthesis methods with affordable costs. To address this, we introduce ScaleQuest, a scalable and novel data synthesis method that utilizes "small-size" (e.g., 7B) open-source models to generate questions from scratch without the need for seed data with complex augmentation constraints. With the efficient ScaleQuest, we automatically constructed a mathematical reasoning dataset consisting of 1 million problem-solution pairs, which are more effective than existing open-sourced datasets. It can universally increase the performance of mainstream open-source models (i.e., Mistral, Llama3, DeepSeekMath, and Qwen2-Math) by achieving 29.2% to 46.4% gains on MATH. Notably, simply fine-tuning the Qwen2-Math-7B-Base model with our dataset can even surpass Qwen2-Math-7B-Instruct, a strong and well-aligned model on closed-source data, and proprietary models such as GPT-4-Turbo and Claude-3.5 Sonnet.

Summary

AI-Generated Summary

PDF403November 16, 2024