Benchmarking von KI-Modellen in der Softwareentwicklung: Eine Übersicht, Suchwerkzeug und Verbesserungsprotokoll
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol
March 7, 2025
Autoren: Roham Koohestani, Philippe de Bekker, Maliheh Izadi
cs.AI
Zusammenfassung
Benchmarks sind unerlässlich für eine konsistente Bewertung und Reproduzierbarkeit. Die Integration von Künstlicher Intelligenz in die Softwareentwicklung (AI4SE) hat zu einer Vielzahl von Benchmarks für Aufgaben wie Code-Generierung und Bugfixing geführt. Dieser Anstieg bringt jedoch Herausforderungen mit sich: (1) verstreutes Benchmark-Wissen über verschiedene Aufgaben hinweg, (2) Schwierigkeiten bei der Auswahl relevanter Benchmarks, (3) das Fehlen eines einheitlichen Standards für die Benchmark-Entwicklung und (4) die Grenzen bestehender Benchmarks. In diesem Artikel überprüfen wir 173 Studien und identifizieren 204 AI4SE-Benchmarks. Wir klassifizieren diese Benchmarks, analysieren ihre Grenzen und decken Lücken in den Praktiken auf. Basierend auf unserer Überprüfung haben wir BenchScout entwickelt, ein semantisches Suchtool, um relevante Benchmarks zu finden, indem wir die Kontexte der zugehörigen Studien automatisch clustern. Wir führten eine Nutzerstudie mit 22 Teilnehmern durch, um die Benutzerfreundlichkeit, Effektivität und Intuitivität von BenchScout zu bewerten, was zu durchschnittlichen Bewertungen von 4,5, 4,0 und 4,1 von 5 führte. Um Benchmarking-Standards voranzutreiben, schlagen wir BenchFrame vor, eine einheitliche Methode zur Verbesserung der Benchmark-Qualität. Als Fallstudie haben wir BenchFrame auf den HumanEval-Benchmark angewendet und seine Hauptgrenzen adressiert. Dies führte zu HumanEvalNext, das (1) korrigierte Fehler, (2) verbesserte Sprachkonvertierung, (3) erweiterte Testabdeckung und (4) erhöhte Schwierigkeit bietet. Anschließend bewerteten wir zehn state-of-the-art Code-Sprachmodelle auf HumanEval, HumanEvalPlus und HumanEvalNext. Auf HumanEvalNext zeigten die Modelle eine Reduktion der pass@1-Werte um 31,22 % bzw. 19,94 % im Vergleich zu HumanEval und HumanEvalPlus.
English
Benchmarks are essential for consistent evaluation and reproducibility. The
integration of Artificial Intelligence into Software Engineering (AI4SE) has
given rise to numerous benchmarks for tasks such as code generation and bug
fixing. However, this surge presents challenges: (1) scattered benchmark
knowledge across tasks, (2) difficulty in selecting relevant benchmarks, (3)
the absence of a uniform standard for benchmark development, and (4)
limitations of existing benchmarks. In this paper, we review 173 studies and
identify 204 AI4SE benchmarks. We classify these benchmarks, analyze their
limitations, and expose gaps in practices. Based on our review, we created
BenchScout, a semantic search tool to find relevant benchmarks, using automated
clustering of the contexts from associated studies. We conducted a user study
with 22 participants to evaluate BenchScout's usability, effectiveness, and
intuitiveness which resulted in average scores of 4.5, 4.0, and 4.1 out of 5.
To advance benchmarking standards, we propose BenchFrame, a unified method to
enhance benchmark quality. As a case study, we applied BenchFrame to the
HumanEval benchmark and addressed its main limitations. This led to
HumanEvalNext, featuring (1) corrected errors, (2) improved language
conversion, (3) expanded test coverage, and (4) increased difficulty. We then
evaluated ten state-of-the-art code language models on HumanEval,
HumanEvalPlus, and HumanEvalNext. On HumanEvalNext, models showed a pass@1
score reduction of 31.22% and 19.94% compared to HumanEval and HumanEvalPlus,
respectively.Summary
AI-Generated Summary