OpenAI의 o1 모델의 추론 패턴에 대한 비교 연구

A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

October 17, 2024
저자: Siwei Wu, Zhongyuan Peng, Xinrun Du, Tuney Zheng, Minghao Liu, Jialong Wu, Jiachen Ma, Yizhi Li, Jian Yang, Wangchunshu Zhou, Qunshu Lin, Junbo Zhao, Zhaoxiang Zhang, Wenhao Huang, Ge Zhang, Chenghua Lin, J. H. Liu
cs.AI

초록

대규모 언어 모델(LLMs)이 더 넓은 범위의 복잡한 작업(예: 코딩, 수학)을 처리할 수 있도록 하는 것은 많은 연구자들의 큰 관심을 끌고 있습니다. LLMs가 계속 발전함에 따라, 모델 매개변수의 수를 단순히 늘리는 것만으로는 성능 향상이 줄어들고 계산 비용이 증가하는 문제가 있습니다. 최근에 OpenAI의 o1 모델은 추론 전략(Test-time Compute 방법)이 LLMs의 추론 능력을 크게 향상시킬 수 있다는 것을 보여주었습니다. 그러나 이러한 방법의 메커니즘은 아직 탐구되지 않은 상태입니다. 저희 연구에서는 o1의 추론 패턴을 조사하기 위해 일반적인 추론 벤치마크에서 OpenAI의 GPT-4o를 백본으로 사용하여 o1을 기존의 Test-time Compute 방법(BoN, Step-wise BoN, Agent Workflow, Self-Refine)과 비교했습니다. 구체적으로, 첫째, 저희 실험 결과로는 o1 모델이 대부분의 데이터셋에서 최고의 성능을 달성했다는 것을 보여줍니다. 둘째, 다양한 응답을 탐색하는 방법(예: BoN)의 경우, 보상 모델의 능력과 탐색 공간이 이러한 방법의 상한선을 제한한다는 것을 발견했습니다. 셋째, 문제를 여러 하위 문제로 분해하는 방법에 대해서는, Agent Workflow가 계획을 더 잘 하는 더 나은 추론 과정을 위한 도메인 특정 시스템 프롬프트로 인해 Step-wise BoN보다 더 나은 성능을 달성했습니다. 넷째, o1의 여섯 가지 추론 패턴을 요약하고 여러 추론 벤치마크에 대해 상세한 분석을 제공했다는 점을 언급할 가치가 있습니다.
English
Enabling Large Language Models (LLMs) to handle a wider range of complex tasks (e.g., coding, math) has drawn great attention from many researchers. As LLMs continue to evolve, merely increasing the number of model parameters yields diminishing performance improvements and heavy computational costs. Recently, OpenAI's o1 model has shown that inference strategies (i.e., Test-time Compute methods) can also significantly enhance the reasoning capabilities of LLMs. However, the mechanisms behind these methods are still unexplored. In our work, to investigate the reasoning patterns of o1, we compare o1 with existing Test-time Compute methods (BoN, Step-wise BoN, Agent Workflow, and Self-Refine) by using OpenAI's GPT-4o as a backbone on general reasoning benchmarks in three domains (i.e., math, coding, commonsense reasoning). Specifically, first, our experiments show that the o1 model has achieved the best performance on most datasets. Second, as for the methods of searching diverse responses (e.g., BoN), we find the reward models' capability and the search space both limit the upper boundary of these methods. Third, as for the methods that break the problem into many sub-problems, the Agent Workflow has achieved better performance than Step-wise BoN due to the domain-specific system prompt for planning better reasoning processes. Fourth, it is worth mentioning that we have summarized six reasoning patterns of o1, and provided a detailed analysis on several reasoning benchmarks.

Summary

AI-Generated Summary

PDF162November 16, 2024