ReasonFlux: 계층적 LLM 추론을 통한 사고 템플릿 확장
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
February 10, 2025
저자: Ling Yang, Zhaochen Yu, Bin Cui, Mengdi Wang
cs.AI
초록
계층적 LLM 추론을 통해 확장된 사고 템플릿을 통해 효과적으로 추론 검색 공간을 최적화하고 OpenAI o1-preview 및 DeepSeek V3와 같은 강력한 LLM의 수학적 추론 능력을 능가할 수 있음을 제시합니다. 우리는 ReasonFlux-32B 모델을 8개의 GPU로만 학습시키고 세 가지 혁신을 도입합니다: (i) 약 500개의 고수준 사고 템플릿을 포함하는 구조화된 일반적인 사고 템플릿 라이브러리, 유사하거나 관련된 추론 문제에 일반화할 수 있는 템플릿; (ii) 긴 CoT 대신 일련의 사고 템플릿에 계층적 강화 학습을 수행하여 복잡한 문제를 점진적으로 처리하기 위한 최적의 템플릿 경로를 계획하는 기본 LLM을 최적화; (iii) 추론 시간에 사고 템플릿을 적응적으로 확장시키는 새로운 추론 확장 시스템. 연속적인 사고 템플릿을 포함하는 템플릿 경로로, ReasonFlux-32B는 수학 추론 능력을 최첨단 수준으로 크게 발전시킵니다. 특히, MATH 벤치마크에서 91.2%의 정확도를 달성하여 o1-preview보다 6.7%를 능가합니다. 미국 수학 올림피아드(AIME) 벤치마크에서 ReasonFlux-32B는 문제의 평균 56.7%를 해결하여 각각 27%와 45%를 능가하는 o1-preview 및 DeepSeek-V3를 뛰어넘습니다. 코드: https://github.com/Gen-Verse/ReasonFlux
English
We present that hierarchical LLM reasoning via scaling thought templates can
effectively optimize the reasoning search space and outperform the mathematical
reasoning capabilities of powerful LLMs like OpenAI o1-preview and DeepSeek V3.
We train our ReasonFlux-32B model with only 8 GPUs and introduces three
innovations: (i) a structured and generic thought template library, containing
around 500 high-level thought templates capable of generalizing to similar or
relevant reasoning problems; (ii) performing hierarchical reinforcement
learning on a sequence of thought templates instead of long CoTs, optimizing a
base LLM to plan out an optimal template trajectory for gradually handling
complex problems; (iii) a brand new inference scaling system that enables
hierarchical LLM reasoning by adaptively scaling thought templates at inference
time. With a template trajectory containing sequential thought templates, our
ReasonFlux-32B significantly advances math reasoning capabilities to
state-of-the-art levels. Notably, on the MATH benchmark, it achieves an
accuracy of 91.2% and surpasses o1-preview by 6.7%. On the USA Math Olympiad
(AIME) benchmark, ReasonFlux-32B solves an average of 56.7% of problems,
surpassing o1-preview and DeepSeek-V3 by 27% and 45%, respectively. Code:
https://github.com/Gen-Verse/ReasonFluxSummary
AI-Generated Summary