HumanEval Pro e MBPP Pro: Valutazione dei Grandi Modelli Linguistici sulla Generazione di Codice Autoinvocante
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation
December 30, 2024
Autori: Zhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
cs.AI
Abstract
Introduciamo la generazione di codice autoinvocante, un nuovo compito progettato per valutare le capacità di ragionamento progressivo e risoluzione dei problemi dei LLM. In questo compito, ai modelli vengono presentati un problema di base e un problema più complesso correlato. Devono risolvere il problema di base e poi utilizzare la sua soluzione per affrontare quello più complesso. Questo lavoro presenta tre contributi chiave. In primo luogo, proponiamo una ricetta generale per generare versioni più impegnative di benchmark esistenti, che ha portato alla creazione di tre nuovi benchmark: HumanEval Pro, MBPP Pro e BigCodeBench-Lite Pro, appositamente progettati per valutare i LLM nella generazione di codice autoinvocante. In secondo luogo, dall'analisi dei risultati sperimentali su oltre venti LLM sui nostri benchmark, abbiamo due osservazioni importanti: (i) La maggior parte dei LLM eccellono nei benchmark tradizionali di generazione di codice come HumanEval e MBPP, ma le loro prestazioni diminuiscono nei compiti autoinvocanti. Ad esempio, o1-mini ottiene il 96,2% di passaggio@1 su HumanEval, ma solo il 76,2% su HumanEval Pro. (ii) Nel compito di generazione di codice autoinvocante, i modelli ottimizzati per le istruzioni mostrano solo miglioramenti marginali rispetto ai modelli di base. In terzo luogo, riveliamo i tipi di modalità di fallimento presenti nei risultati della nostra valutazione. Tutti questi risultati sottolineano la necessità di ulteriori progressi nei compiti di generazione di codice autoinvocante e indicano una nuova direzione per futuri studi sull'ottimizzazione delle capacità di ragionamento del codice dei LLM.
English
We introduce self-invoking code generation, a new task designed to evaluate
the progressive reasoning and problem-solving capabilities of LLMs. In this
task, models are presented with a base problem and a related, more complex
problem. They must solve the base problem and then utilize its solution to
address the more complex one. This work features three key contributions.
First, we propose a general recipe for generating more challenging versions of
existing benchmarks, resulting in three new benchmarks: HumanEval Pro, MBPP
Pro, and BigCodeBench-Lite Pro, specifically designed to assess LLMs on
self-invoking code generation. Second, from the analysis of experimental
results over twenty LLMs on our benchmarks, we have two important observations:
(i) Most LLMs excel in traditional code generation benchmarks like HumanEval
and MBPP, but their performance declines on self-invoking tasks. For example,
o1-mini achieves 96.2% pass@1 on HumanEval but only 76.2% on HumanEval Pro.
(ii) On self-invoking code generation task, the instruction-tuned models
demonstrate only marginal improvements compared to the base models. Third, we
disclose the types of failure modes that exist in our evaluation results. All
these results underscore the need for further advancements in self-invoking
code generation tasks and provide a new direction for future research on
enhancing LLMs' code reasoning capabilities.Summary
AI-Generated Summary