ChatPaper.aiChatPaper

추론을 위한 LIMO: 적은 것이 더 좋다

LIMO: Less is More for Reasoning

February 5, 2025
저자: Yixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu
cs.AI

초록

대규모 언어 모델에서 복잡한 추론이 어떻게 발생하는지에 대한 우리의 이해를 도전하는 근본적인 발견을 제시합니다. 일반적인 상식은 정교한 추론 작업이 많은 학습 데이터(>100,000 예시)를 요구한다고 주장하지만, 우리는 복잡한 수학적 추론 능력이 놀랍도록 적은 예시로 효과적으로 유도될 수 있다는 것을 증명합니다. 포괄적인 실험을 통해 우리가 제안하는 LIMO 모델은 수학적 추론에서 전례 없는 성능을 보여줍니다. 817개의 선별된 훈련 샘플만 사용하여, LIMO는 AIME에서 57.1%의 정확도와 MATH에서 94.8%의 정확도를 달성하며, 이는 이전 SFT 기반 모델의 각각 6.5% 및 59.2%에서 향상되었습니다. 이는 이전 방법에 필요한 훈련 데이터의 1%만을 사용하였습니다. LIMO는 10가지 다양한 벤치마크에서 40.5%의 절대적인 향상을 달성하며, 100배 더 많은 데이터로 훈련된 모델들을 능가하여, SFT가 기억이 아닌 일반화로 이어진다는 개념에 도전합니다. 이러한 결과를 바탕으로, 우리는 Less-Is-More Reasoning 가설 (LIMO 가설)을 제안합니다. 이 가설은 사전 훈련 중에 도메인 지식이 철저히 부여된 기초 모델에서, 정교한 추론 능력이 최소한이지만 정확하게 조율된 인지 과정의 시연을 통해 발현될 수 있다고 주장합니다. 이 가설은 복잡한 추론을 유도하는 임계점이 두 가지 주요 요소에 의해 결정된다고 제안합니다: (1) 사전 훈련 중 모델의 부여된 지식 기초의 완성도, (2) 사후 훈련 예시가 모델에게 어떻게 지식 기반을 활용하여 복잡한 추론 작업을 해결할지를 보여주는 "인지 템플릿"으로서의 효과성. 데이터 효율적 추론에 대한 재현성과 미래 연구를 촉진하기 위해, 우리는 LIMO를 https://github.com/GAIR-NLP/LIMO에서 포괄적인 오픈 소스 스위트로 공개합니다.
English
We present a fundamental discovery that challenges our understanding of how complex reasoning emerges in large language models. While conventional wisdom suggests that sophisticated reasoning tasks demand extensive training data (>100,000 examples), we demonstrate that complex mathematical reasoning abilities can be effectively elicited with surprisingly few examples. Through comprehensive experiments, our proposed model LIMO demonstrates unprecedented performance in mathematical reasoning. With merely 817 curated training samples, LIMO achieves 57.1% accuracy on AIME and 94.8% on MATH, improving from previous SFT-based models' 6.5% and 59.2% respectively, while only using 1% of the training data required by previous approaches. LIMO demonstrates exceptional out-of-distribution generalization, achieving 40.5% absolute improvement across 10 diverse benchmarks, outperforming models trained on 100x more data, challenging the notion that SFT leads to memorization rather than generalization. Based on these results, we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning capabilities can emerge through minimal but precisely orchestrated demonstrations of cognitive processes. This hypothesis posits that the elicitation threshold for complex reasoning is determined by two key factors: (1) the completeness of the model's encoded knowledge foundation during pre-training, and (2) the effectiveness of post-training examples as "cognitive templates" that show the model how to utilize its knowledge base to solve complex reasoning tasks. To facilitate reproducibility and future research in data-efficient reasoning, we release LIMO as a comprehensive open-source suite at https://github.com/GAIR-NLP/LIMO.

Summary

AI-Generated Summary

PDF564February 6, 2025