HumanEval Pro e MBPP Pro: Avaliando Modelos de Linguagem Grandes na Geração de Código Autoinvocável
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
December 30, 2024
Autores: Zhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
cs.AI
Resumo
Apresentamos a geração de código autoinvocável, uma nova tarefa projetada para avaliar as capacidades progressivas de raciocínio e resolução de problemas de LLMs. Nesta tarefa, os modelos são apresentados com um problema base e um problema mais complexo relacionado. Eles devem resolver o problema base e então utilizar sua solução para abordar o problema mais complexo. Este trabalho apresenta três contribuições-chave. Primeiramente, propomos uma receita geral para gerar versões mais desafiadoras de benchmarks existentes, resultando em três novos benchmarks: HumanEval Pro, MBPP Pro e BigCodeBench-Lite Pro, especificamente projetados para avaliar LLMs na geração de código autoinvocável. Em segundo lugar, a partir da análise dos resultados experimentais de mais de vinte LLMs em nossos benchmarks, temos duas observações importantes: (i) A maioria dos LLMs se destaca em benchmarks tradicionais de geração de código como HumanEval e MBPP, mas seu desempenho diminui em tarefas autoinvocáveis. Por exemplo, o1-mini atinge 96,2% pass@1 em HumanEval, mas apenas 76,2% em HumanEval Pro. (ii) Na tarefa de geração de código autoinvocável, os modelos ajustados às instruções demonstram apenas melhorias marginais em comparação com os modelos base. Em terceiro lugar, revelamos os tipos de modos de falha que existem em nossos resultados de avaliação. Todos esses resultados destacam a necessidade de avanços adicionais em tarefas de geração de código autoinvocável e fornecem uma nova direção para pesquisas futuras sobre o aprimoramento das capacidades de raciocínio de código dos LLMs.
English
We introduce self-invoking code generation, a new task designed to evaluate
the progressive reasoning and problem-solving capabilities of LLMs. In this
task, models are presented with a base problem and a related, more complex
problem. They must solve the base problem and then utilize its solution to
address the more complex one. This work features three key contributions.
First, we propose a general recipe for generating more challenging versions of
existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP
Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on
self-invoking code generation. Second, from the analysis of experimental
results over twenty LLMs on our benchmarks, we have two important observations:
(i) Most LLMs excel in traditional code generation benchmarks like HumanEval
and MBPP, but their performance declines on self-invoking tasks. For example,
o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro.
(ii) On self-invoking code generation task, the instruction-tuned models
demonstrate only marginal improvements compared to the base models. Third, we
disclose the types of failure modes that exist in our evaluation results. All
these results underscore the need for further advancements in self-invoking
code generation tasks and provide a new direction for future research on
enhancing LLMs' code reasoning capabilities.Summary
AI-Generated Summary