Omni-MATH: 대규모 언어 모델을 위한 범용 올림피아드 수학 벤치마크

Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

October 10, 2024
저자: Bofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, Zhengyang Tang, Benyou Wang, Daoguang Zan, Shanghaoran Quan, Ge Zhang, Lei Sha, Yichang Zhang, Xuancheng Ren, Tianyu Liu, Baobao Chang
cs.AI

초록

최근 대형 언어 모델(LLM)의 발전으로 수학적 추론 능력에 있어서 상당한 진전이 이루어졌습니다. 그러나 GSM8K나 MATH와 같은 기존의 벤치마크는 높은 정확도로 해결되고 있으며(예: OpenAI o1은 MATH 데이터셋에서 94.8%를 달성함), 이 모델들을 진정으로 도전하는 데 부족함을 보여줍니다. 이 간극을 메우기 위해, 우리는 LLM의 수학적 추론 능력을 올림피아드 수준에서 평가하기 위해 특별히 설계된 포괄적이고 도전적인 벤치마크를 제안합니다. 기존의 올림피아드 관련 벤치마크와는 달리, 우리의 데이터셋은 수학에만 초점을 맞추며 엄격한 인간 주석이 달린 4428개의 대회 수준 문제들의 방대한 컬렉션으로 구성되어 있습니다. 이러한 문제들은 33개 이상의 하위 도메인으로 세분화되어 있으며 10개 이상의 서로 다른 난이도 수준을 포괴하고 있어, 올림피아드-수학적 추론에서 모델 성능을 종합적으로 평가할 수 있게 합니다. 게다가, 우리는 이 벤치마크를 기반으로 심층적인 분석을 수행했습니다. 실험 결과는 심지어 가장 선진한 모델인 OpenAI o1-mini와 OpenAI o1-preview도 올림피아드 수준의 매우 어려운 문제들에 어려움을 겪는 것을 보여주며, 60.54%와 52.55%의 정확도를 보여주어 올림피아드 수준의 수학적 추론에서의 중요한 도전을 강조합니다.
English
Recent advancements in large language models (LLMs) have led to significant breakthroughs in mathematical reasoning capabilities. However, existing benchmarks like GSM8K or MATH are now being solved with high accuracy (e.g., OpenAI o1 achieves 94.8% on MATH dataset), indicating their inadequacy for truly challenging these models. To bridge this gap, we propose a comprehensive and challenging benchmark specifically designed to assess LLMs' mathematical reasoning at the Olympiad level. Unlike existing Olympiad-related benchmarks, our dataset focuses exclusively on mathematics and comprises a vast collection of 4428 competition-level problems with rigorous human annotation. These problems are meticulously categorized into over 33 sub-domains and span more than 10 distinct difficulty levels, enabling a holistic assessment of model performance in Olympiad-mathematical reasoning. Furthermore, we conducted an in-depth analysis based on this benchmark. Our experimental results show that even the most advanced models, OpenAI o1-mini and OpenAI o1-preview, struggle with highly challenging Olympiad-level problems, with 60.54% and 52.55% accuracy, highlighting significant challenges in Olympiad-level mathematical reasoning.

Summary

AI-Generated Summary

PDF263November 16, 2024