HumanEval ProとMBPP Pro:自己呼び出しコード生成における大規模言語モデルの評価
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
December 30, 2024
著者: Zhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
cs.AI
要旨
自己呼び出しコード生成を導入します。これは、LLMの進歩的な推論および問題解決能力を評価するために設計された新しいタスクです。このタスクでは、モデルに基本的な問題と関連するより複雑な問題が提示されます。モデルは基本的な問題を解決し、その解決策を利用してより複雑な問題に対処する必要があります。この研究には3つの主要な貢献があります。まず、既存のベンチマークのより難しいバージョンを生成するための一般的な手順を提案し、HumanEval Pro、MBPP Pro、BigCodeBench-Lite Proの3つの新しいベンチマークを導入しました。これらは、LLMの自己呼び出しコード生成能力を評価するために特に設計されています。第二に、20以上のLLMに対する実験結果の分析から、2つの重要な観察結果が得られました。すなわち、ほとんどのLLMはHumanEvalやMBPPなどの従来のコード生成ベンチマークで優れた成績を収めていますが、自己呼び出しタスクではパフォーマンスが低下しています。例えば、o1-miniはHumanEvalで96.2%のpass@1を達成していますが、HumanEval Proではわずか76.2%です。第三に、自己呼び出しコード生成タスクでは、指示に調整されたモデルはベースモデルと比較してわずかな改善しか示していません。最後に、評価結果に存在する失敗モードの種類を開示します。これらの結果は、自己呼び出しコード生成タスクにおけるさらなる進展の必要性を強調し、LLMのコード推論能力を向上させるための将来の研究への新たな方向性を提供しています。
English
We introduce self-invoking code generation, a new task designed to evaluate
the progressive reasoning and problem-solving capabilities of LLMs. In this
task, models are presented with a base problem and a related, more complex
problem. They must solve the base problem and then utilize its solution to
address the more complex one. This work features three key contributions.
First, we propose a general recipe for generating more challenging versions of
existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP
Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on
self-invoking code generation. Second, from the analysis of experimental
results over twenty LLMs on our benchmarks, we have two important observations:
(i) Most LLMs excel in traditional code generation benchmarks like HumanEval
and MBPP, but their performance declines on self-invoking tasks. For example,
o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro.
(ii) On self-invoking code generation task, the instruction-tuned models
demonstrate only marginal improvements compared to the base models. Third, we
disclose the types of failure modes that exist in our evaluation results. All
these results underscore the need for further advancements in self-invoking
code generation tasks and provide a new direction for future research on
enhancing LLMs' code reasoning capabilities.Summary
AI-Generated Summary