HumanEval Pro 및 MBPP Pro: 자체 호출 코드 생성에 대한 대규모 언어 모델의 평가
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
December 30, 2024
저자: Zhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
cs.AI
초록
우리는 LLM의 점진적 추론 및 문제 해결 능력을 평가하기 위해 설계된 새로운 작업인 자가 호출 코드 생성을 소개합니다. 이 작업에서 모델은 기본 문제와 관련된 더 복잡한 문제를 제시받습니다. 그들은 기본 문제를 해결한 다음 그 해결책을 활용하여 더 복잡한 문제에 대처해야 합니다. 본 연구는 세 가지 주요 기여를 갖추고 있습니다. 첫째, 우리는 기존 벤치마크의 보다 어려운 버전을 생성하는 일반적인 방법을 제안하여 HumanEval Pro, MBPP Pro 및 BigCodeBench-Lite Pro 세 가지 새로운 벤치마크를 도출했습니다. 이들은 LLM의 자가 호출 코드 생성 능력을 평가하기 위해 특별히 설계되었습니다. 둘째, 우리의 벤치마크에서 20개 이상의 LLM에 대한 실험 결과 분석으로부터 두 가지 중요한 관찰을 얻었습니다. (i) 대부분의 LLM은 HumanEval 및 MBPP와 같은 전통적인 코드 생성 벤치마크에서 우수한 성과를 보이지만, 자가 호출 작업에서는 성능이 저하됩니다. 예를 들어, o1-mini는 HumanEval에서 96.2%의 pass@1을 달성하지만 HumanEval Pro에서는 76.2%에 그칩니다. (ii) 자가 호출 코드 생성 작업에서, 지시어에 튜닝된 모델은 기본 모델과 비교하여 미미한 개선만을 보여줍니다. 셋째, 우리는 평가 결과에 존재하는 실패 모드 유형을 공개합니다. 이 모든 결과들은 LLM의 코드 추론 능력을 향상시키기 위한 미래 연구의 새로운 방향을 제시하며, 자가 호출 코드 생성 작업에서의 추가 발전 필요성을 강조합니다.
English
We introduce self-invoking code generation, a new task designed to evaluate
the progressive reasoning and problem-solving capabilities of LLMs. In this
task, models are presented with a base problem and a related, more complex
problem. They must solve the base problem and then utilize its solution to
address the more complex one. This work features three key contributions.
First, we propose a general recipe for generating more challenging versions of
existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP
Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on
self-invoking code generation. Second, from the analysis of experimental
results over twenty LLMs on our benchmarks, we have two important observations:
(i) Most LLMs excel in traditional code generation benchmarks like HumanEval
and MBPP, but their performance declines on self-invoking tasks. For example,
o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro.
(ii) On self-invoking code generation task, the instruction-tuned models
demonstrate only marginal improvements compared to the base models. Third, we
disclose the types of failure modes that exist in our evaluation results. All
these results underscore the need for further advancements in self-invoking
code generation tasks and provide a new direction for future research on
enhancing LLMs' code reasoning capabilities.Summary
AI-Generated Summary