수학 능력 평가를 위한 대학 수준 벤치마크 U-MATH: LLMs에서
U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs
December 4, 2024
저자: Konstantin Chernyshev, Vitaliy Polshkov, Ekaterina Artemova, Alex Myasnikov, Vlad Stepanov, Alexei Miasnikov, Sergei Tilga
cs.AI
초록
LLM의 수학적 기술 평가는 현재 제한적이며, 기존의 기준은 상대적으로 작거나 주로 초등학교 및 고등학교 문제에 중점을 둬서 주제 다양성이 부족합니다. 또한 과제에 시각적 요소를 포함하는 것은 여전히 탐구되지 않은 상태입니다.
이러한 공백을 해결하기 위해, 우리는 U-MATH를 소개합니다. 이는 6개의 핵심 과목을 균형 있게 다루며, 20%가 다중모달 문제인 1,100개의 미발표 대학 수준 문제 벤치마크입니다. U-MATH 문제의 개방형 특성을 고려하여, 우리는 LLM을 사용하여 생성된 해결책의 정확성을 판단합니다. 이를 위해, 우리는 LLM의 판단 능력을 평가하기 위한 mu-MATH 데이터셋을 공개합니다.
일반 도메인, 수학 특화, 그리고 다중모달 LLM의 평가는 U-MATH가 제기하는 어려움을 강조합니다. 우리의 연구 결과는 LLM이 텍스트 기반 과제에서 최대 정확도가 63%에 불과하며, 시각적 문제에서는 더 낮은 45%에 머물러 있음을 보여줍니다. 해결책 평가는 LLM에게 어려운 과제임이 입증되었는데, mu-MATH에서 최고의 LLM 판사는 F1 점수가 80%에 달합니다.
English
The current evaluation of mathematical skills in LLMs is limited, as existing
benchmarks are either relatively small, primarily focus on elementary and
high-school problems, or lack diversity in topics. Additionally, the inclusion
of visual elements in tasks remains largely under-explored.
To address these gaps, we introduce U-MATH, a novel benchmark of 1,100
unpublished open-ended university-level problems sourced from teaching
materials. It is balanced across six core subjects, with 20% of multimodal
problems. Given the open-ended nature of U-MATH problems, we employ an LLM to
judge the correctness of generated solutions. To this end, we release
mu-MATH, a dataset to evaluate the LLMs' capabilities in judging solutions.
The evaluation of general domain, math-specific, and multimodal LLMs
highlights the challenges presented by U-MATH. Our findings reveal that LLMs
achieve a maximum accuracy of only 63% on text-based tasks, with even lower 45%
on visual problems. The solution assessment proves challenging for LLMs, with
the best LLM judge having an F1-score of 80% on mu-MATH.Summary
AI-Generated Summary