Les modèles de langage peuvent-ils remplacer les programmeurs ? REPOCOD dit 'Pas encore'.

Résumé

Les grands modèles de langage (LLM) ont montré une capacité remarquable en génération de code avec plus de 90 pass@1 pour résoudre des problèmes de codage Python dans HumanEval et MBPP. Une telle précision élevée soulève la question : les LLM peuvent-ils remplacer les programmeurs humains ? Les benchmarks de génération de code existants, manuellement conçus, simples ou d'une seule ligne, ne peuvent pas répondre à cette question en raison de leur écart par rapport au développement logiciel réel. Pour répondre à cette question, nous proposons REPOCOD, un benchmark de génération de code avec 980 problèmes collectés auprès de 11 projets réels populaires, dont plus de 58 % nécessitent des informations contextuelles au niveau du fichier ou du dépôt. De plus, REPOCOD présente la plus longue longueur moyenne de solution canonique (331,6 tokens) et la plus haute complexité cyclomatique moyenne (9,00) par rapport aux benchmarks existants. Dans nos évaluations sur dix LLM, aucun des modèles ne peut atteindre plus de 30 pass@1 sur REPOCOD, révélant la nécessité de développer des LLM plus performants pouvant aider les développeurs dans le développement logiciel réel.

English

Large language models (LLMs) have shown remarkable ability in code generation with more than 90 pass@1 in solving Python coding problems in HumanEval and MBPP. Such high accuracy leads to the question: can LLMs replace human programmers? Existing manual crafted, simple, or single-line code generation benchmarks cannot answer this question due to their gap with real-world software development. To answer this question, we propose REPOCOD, a code generation benchmark with 980 problems collected from 11 popular real-world projects, with more than 58% of them requiring file-level or repository-level context information. In addition, REPOCOD has the longest average canonical solution length (331.6 tokens) and the highest average cyclomatic complexity (9.00) compared to existing benchmarks. In our evaluations on ten LLMs, none of the models can achieve more than 30 pass@1 on REPOCOD, disclosing the necessity of building stronger LLMs that can help developers in real-world software development.

Les modèles de langage peuvent-ils remplacer les programmeurs ? REPOCOD dit 'Pas encore'.

Can Language Models Replace Programmers? REPOCOD Says 'Not Yet'

Résumé

Summary

Support