Können Sprachmodelle Programmierer ersetzen? REPOCOD sagt: "Noch nicht".
Can Language Models Replace Programmers? REPOCOD Says 'Not Yet'
October 29, 2024
Autoren: Shanchao Liang, Yiran Hu, Nan Jiang, Lin Tan
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben eine bemerkenswerte Fähigkeit in der Codegenerierung gezeigt, mit mehr als 90 pass@1 bei der Lösung von Python-Codierungsproblemen in HumanEval und MBPP. Eine solch hohe Genauigkeit wirft die Frage auf: Können LLMs menschliche Programmierer ersetzen? Bestehende manuell erstellte, einfache oder einzeilige Codegenerierungstests können diese Frage aufgrund ihrer Diskrepanz zur Softwareentwicklung in der realen Welt nicht beantworten. Um diese Frage zu beantworten, schlagen wir REPOCOD vor, einen Codegenerierungstest mit 980 Problemen, die aus 11 beliebten Projekten der realen Welt gesammelt wurden, wobei mehr als 58% von ihnen Datei- oder Repository-Ebene Kontextinformationen erfordern. Darüber hinaus hat REPOCOD die längste durchschnittliche kanonische Lösungslänge (331,6 Token) und die höchste durchschnittliche zyklomatische Komplexität (9,00) im Vergleich zu bestehenden Tests. In unseren Bewertungen von zehn LLMs konnte keines der Modelle mehr als 30 pass@1 bei REPOCOD erreichen, was die Notwendigkeit unterstreicht, stärkere LLMs zu entwickeln, die Entwicklern in der Softwareentwicklung in der realen Welt helfen können.
English
Large language models (LLMs) have shown remarkable ability in code generation
with more than 90 pass@1 in solving Python coding problems in HumanEval and
MBPP. Such high accuracy leads to the question: can LLMs replace human
programmers? Existing manual crafted, simple, or single-line code generation
benchmarks cannot answer this question due to their gap with real-world
software development. To answer this question, we propose REPOCOD, a code
generation benchmark with 980 problems collected from 11 popular real-world
projects, with more than 58% of them requiring file-level or repository-level
context information. In addition, REPOCOD has the longest average canonical
solution length (331.6 tokens) and the highest average cyclomatic complexity
(9.00) compared to existing benchmarks. In our evaluations on ten LLMs, none of
the models can achieve more than 30 pass@1 on REPOCOD, disclosing the necessity
of building stronger LLMs that can help developers in real-world software
development.Summary
AI-Generated Summary