점프하는 추론 곡선? GPT-[n] 및 o-[n] 모델에서의 다중 모달 퍼즐에서 추론 성능 진화 추적
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles
February 3, 2025
저자: Vernon Y. H. Toh, Yew Ken Chia, Deepanway Ghosal, Soujanya Poria
cs.AI
초록
OpenAI의 o1 및 o3 릴리스는 대규모 언어 모델에서 고급 추론 능력으로의 중대한 패러다임 변화를 나타냅니다. 특히 o3은 인공 일반 지능 (ARC-AGI)의 추상화 및 추론 말뭉치에서 혁신적인 문제 해결 및 기술 습득에서 인간을 능가했습니다. 그러나 이 벤치마크는 상징적 패턴에 한정되어 있으며, 반면 인간은 종종 시각 및 언어 데이터를 포함하는 다중 모달 시나리오에 대해 지각하고 추론합니다. 따라서, 다중 모달 작업에서 고급 추론 능력을 조사할 필요가 절박합니다. 이를 위해 우리는 GPT-[n] 및 o-[n] 시리즈 모델의 진화를 추적하며, 추상적이거나 알고리즘적 추론이 필요한 어려운 다중 모달 퍼즐에 대해 미세한 시각 지각을 요구합니다. o1의 우수한 성능은 GPT-4o의 거의 750배에 달하는 계산 비용으로 이루어졌으며, 효율성에 대한 우려가 제기되었습니다. 우리의 결과는 모델 반복별 추론 능력의 명확한 상승 추세를 보여주며, GPT-시리즈 모델과 이어지는 o1을 통해 주목할만한 성능 향상이 있었습니다. 그러나 o1 모델은 여전히 추상적 추론이 필요한 간단한 다중 모달 퍼즐에서 어려움을 겪는 것으로 나타났습니다. 더욱이, 알고리즘적 퍼즐에서의 성능은 여전히 나쁩니다. 우리는 계속해서 시리즈의 새로운 모델을 추적하고 본 논문에서 결과를 업데이트할 계획입니다. 이 평가에 사용된 모든 자원은 https://github.com/declare-lab/LLM-PuzzleTest에서 공개적으로 이용 가능합니다.
English
The releases of OpenAI's o1 and o3 mark a significant paradigm shift in Large
Language Models towards advanced reasoning capabilities. Notably, o3
outperformed humans in novel problem-solving and skill acquisition on the
Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI).
However, this benchmark is limited to symbolic patterns, whereas humans often
perceive and reason about multimodal scenarios involving both vision and
language data. Thus, there is an urgent need to investigate advanced reasoning
capabilities in multimodal tasks. To this end, we track the evolution of the
GPT-[n] and o-[n] series models on challenging multimodal puzzles, requiring
fine-grained visual perception with abstract or algorithmic reasoning. The
superior performance of o1 comes at nearly 750 times the computational cost of
GPT-4o, raising concerns about its efficiency. Our results reveal a clear
upward trend in reasoning capabilities across model iterations, with notable
performance jumps across GPT-series models and subsequently to o1. Nonetheless,
we observe that the o1 model still struggles with simple multimodal puzzles
requiring abstract reasoning. Furthermore, its performance in algorithmic
puzzles remains poor. We plan to continuously track new models in the series
and update our results in this paper accordingly. All resources used in this
evaluation are openly available https://github.com/declare-lab/LLM-PuzzleTest.Summary
AI-Generated Summary