Les modèles de langage peuvent-ils remplacer les programmeurs ? REPOCOD dit 'Pas encore'.
Can Language Models Replace Programmers? REPOCOD Says 'Not Yet'
October 29, 2024
Auteurs: Shanchao Liang, Yiran Hu, Nan Jiang, Lin Tan
cs.AI
Résumé
Les grands modèles de langage (LLM) ont montré une capacité remarquable en génération de code avec plus de 90 pass@1 pour résoudre des problèmes de codage Python dans HumanEval et MBPP. Une telle précision élevée soulève la question : les LLM peuvent-ils remplacer les programmeurs humains ? Les benchmarks de génération de code existants, manuellement conçus, simples ou d'une seule ligne, ne peuvent pas répondre à cette question en raison de leur écart par rapport au développement logiciel réel. Pour répondre à cette question, nous proposons REPOCOD, un benchmark de génération de code avec 980 problèmes collectés auprès de 11 projets réels populaires, dont plus de 58 % nécessitent des informations contextuelles au niveau du fichier ou du dépôt. De plus, REPOCOD présente la plus longue longueur moyenne de solution canonique (331,6 tokens) et la plus haute complexité cyclomatique moyenne (9,00) par rapport aux benchmarks existants. Dans nos évaluations sur dix LLM, aucun des modèles ne peut atteindre plus de 30 pass@1 sur REPOCOD, révélant la nécessité de développer des LLM plus performants pouvant aider les développeurs dans le développement logiciel réel.
English
Large language models (LLMs) have shown remarkable ability in code generation
with more than 90 pass@1 in solving Python coding problems in HumanEval and
MBPP. Such high accuracy leads to the question: can LLMs replace human
programmers? Existing manual crafted, simple, or single-line code generation
benchmarks cannot answer this question due to their gap with real-world
software development. To answer this question, we propose REPOCOD, a code
generation benchmark with 980 problems collected from 11 popular real-world
projects, with more than 58% of them requiring file-level or repository-level
context information. In addition, REPOCOD has the longest average canonical
solution length (331.6 tokens) and the highest average cyclomatic complexity
(9.00) compared to existing benchmarks. In our evaluations on ten LLMs, none of
the models can achieve more than 30 pass@1 on REPOCOD, disclosing the necessity
of building stronger LLMs that can help developers in real-world software
development.Summary
AI-Generated Summary