Kunnen Taalmodellen Programmeurs vervangen? REPOCOD zegt 'Nog niet'.
Can Language Models Replace Programmers? REPOCOD Says 'Not Yet'
October 29, 2024
Auteurs: Shanchao Liang, Yiran Hu, Nan Jiang, Lin Tan
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben een opmerkelijk vermogen getoond in codegeneratie met meer dan 90 pass@1 bij het oplossen van Python programmeerproblemen in HumanEval en MBPP. Zo'n hoge nauwkeurigheid roept de vraag op: kunnen LLM's menselijke programmeurs vervangen? Bestaande handmatig gemaakte, eenvoudige of enkelvoudige codegeneratie benchmarks kunnen deze vraag niet beantwoorden vanwege hun kloof met softwareontwikkeling in de echte wereld. Om deze vraag te beantwoorden, stellen we REPOCOD voor, een codegeneratie benchmark met 980 problemen verzameld uit 11 populaire projecten in de echte wereld, waarvan meer dan 58% contextinformatie op bestandsniveau of repositoryniveau vereist. Bovendien heeft REPOCOD de langste gemiddelde canonieke oplossingslengte (331,6 tokens) en de hoogste gemiddelde cyclomatische complexiteit (9,00) in vergelijking met bestaande benchmarks. In onze evaluaties van tien LLM's kan geen van de modellen meer dan 30 pass@1 behalen op REPOCOD, wat de noodzaak onthult van het ontwikkelen van krachtigere LLM's die ontwikkelaars kunnen helpen bij softwareontwikkeling in de echte wereld.
English
Large language models (LLMs) have shown remarkable ability in code generation
with more than 90 pass@1 in solving Python coding problems in HumanEval and
MBPP. Such high accuracy leads to the question: can LLMs replace human
programmers? Existing manual crafted, simple, or single-line code generation
benchmarks cannot answer this question due to their gap with real-world
software development. To answer this question, we propose REPOCOD, a code
generation benchmark with 980 problems collected from 11 popular real-world
projects, with more than 58% of them requiring file-level or repository-level
context information. In addition, REPOCOD has the longest average canonical
solution length (331.6 tokens) and the highest average cyclomatic complexity
(9.00) compared to existing benchmarks. In our evaluations on ten LLMs, none of
the models can achieve more than 30 pass@1 on REPOCOD, disclosing the necessity
of building stronger LLMs that can help developers in real-world software
development.Summary
AI-Generated Summary