2+3에 대해 너무 많이 생각하지 마십시오? o1과 유사한 LLM의 과도한 사고에 대해
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
December 30, 2024
저자: Xingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
cs.AI
초록
OpenAI o1과 같은 모델의 놀라운 성능은 추론 중에 인간과 유사한 장기적 사고를 흉내 내는 능력으로 설명될 수 있습니다. 이러한 모델은 문제 해결 능력을 향상시키기 위해 여러 전략을 탐색하는 확장된 사고 연쇄 (CoT) 프로세스를 사용합니다. 그러나 중요한 질문이 남아 있습니다: 테스트 중에 계산 자원을 지능적이고 효율적으로 확장하는 방법은 무엇인가. 본 논문은 이러한 모델에서 지나치게 계산 자원이 할당되어 단순한 문제에 대해 최소한의 이점을 얻는 과도한 사고에 대한 첫 번째 포괄적인 연구를 제시합니다. 우리는 o1과 유사한 모델이 계산 자원을 합리적으로 사용하는지 평가하기 위해 결과 및 과정 관점에서 혁신적인 효율성 지표를 소개합니다. 자가 교육 패러다임을 사용하여, 우리는 과도한 사고를 완화하고 정확도를 희생하지 않고 추론 프로세스를 간소화하는 전략을 제안합니다. 실험 결과는 우리의 접근 방식이 GSM8K, MATH500, GPQA, AIME 등 다양한 난이도의 테스트 세트에서 모델 성능을 유지하면서 계산 자원 과다 소비를 성공적으로 줄였음을 보여줍니다.
English
The remarkable performance of models like the OpenAI o1 can be attributed to
their ability to emulate human-like long-time thinking during inference. These
models employ extended chain-of-thought (CoT) processes, exploring multiple
strategies to enhance problem-solving capabilities. However, a critical
question remains: How to intelligently and efficiently scale computational
resources during testing. This paper presents the first comprehensive study on
the prevalent issue of overthinking in these models, where excessive
computational resources are allocated for simple problems with minimal benefit.
We introduce novel efficiency metrics from both outcome and process
perspectives to evaluate the rational use of computational resources by o1-like
models. Using a self-training paradigm, we propose strategies to mitigate
overthinking, streamlining reasoning processes without compromising accuracy.
Experimental results show that our approach successfully reduces computational
overhead while preserving model performance across a range of testsets with
varying difficulty levels, such as GSM8K, MATH500, GPQA, and AIME.Summary
AI-Generated Summary