박사 학위 지식 불필요: 대규모 언어 모델을 위한 추론 도전
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models
February 3, 2025
저자: Carolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu
cs.AI
초록
기존의 선두 모델을 위한 기준은 종종 비전문가들이 이해하기 어려운 "박사 수준"의 전문 지식을 시험합니다. 대조적으로, 우리는 오직 일반 지식만 필요로 하는 NPR 일요일 퍼즐 챌린지를 기반으로 한 벤치마크를 제시합니다. 우리의 벤치마크는 인간과 모델 둘 다에게 도전적이지만, 정답은 쉽게 확인할 수 있으며 모델의 실수는 쉽게 발견할 수 있습니다.
우리의 연구는 기존의 벤치마크에서는 명백하지 않은 능력 차이를 드러냅니다: OpenAI o1은 전문 지식을 시험하는 벤치마크에서 동등한 수준의 다른 추론 모델들을 크게 앞섭니다. 게다가, 우리가 추론 결과를 분석하면 새로운 종류의 실패를 발견할 수 있습니다. 예를 들어, DeepSeek R1은 종종 "포기합니다"라고 인정하고 나중에 틀린 것을 알면서 답변을 제공하기도 합니다. R1은 출력에서 놀랍도록 "불확실"할 수도 있으며, 드물게는 "생각을 완료하지 않는" 경우도 있어서 문맥 창 한계에 도달하기 전에 "마무리"하기 위한 추론 시간 기술이 필요함을 시사합니다. 또한, R1과 Gemini Thinking을 사용하여 추론을 더 길게 하는 효과를 양적으로 분석하여, 우리의 벤치마크에서 정확도를 향상시키기 어려운 지점을 식별합니다.
English
Existing benchmarks for frontier models often test specialized, ``PhD-level''
knowledge that is difficult for non-experts to grasp. In contrast, we present a
benchmark based on the NPR Sunday Puzzle Challenge that requires only general
knowledge. Our benchmark is challenging for both humans and models, however
correct solutions are easy to verify, and models' mistakes are easy to spot.
Our work reveals capability gaps that are not evident in existing benchmarks:
OpenAI o1 significantly outperforms other reasoning models that are on par on
benchmarks that test specialized knowledge. Furthermore, our analysis of
reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance,
often concedes with ``I give up'' before providing an answer that it knows is
wrong. R1 can also be remarkably ``uncertain'' in its output and in rare cases,
it does not ``finish thinking,'' which suggests the need for an inference-time
technique to ``wrap up'' before the context window limit is reached. We also
quantify the effectiveness of reasoning longer with R1 and Gemini Thinking to
identify the point beyond which more reasoning is unlikely to improve accuracy
on our benchmark.Summary
AI-Generated Summary