FEA-Bench: Ein Benchmark zur Bewertung von Codegenerierung auf Repository-Ebene für die Implementierung von Features
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation
March 9, 2025
Autoren: Wei Li, Xin Zhang, Zhongxin Guo, Shaoguang Mao, Wen Luo, Guangyue Peng, Yangyu Huang, Houfeng Wang, Scarlett Li
cs.AI
Zusammenfassung
Die Implementierung neuer Funktionen in Repository-Level-Codebasen ist eine entscheidende Anwendung von Code-Generierungsmodellen. Allerdings fehlt es in aktuellen Benchmarks an einem speziellen Bewertungsrahmen für diese Fähigkeit. Um diese Lücke zu schließen, führen wir FEA-Bench ein, einen Benchmark, der darauf abzielt, die Fähigkeit großer Sprachmodelle (LLMs) zur inkrementellen Entwicklung innerhalb von Code-Repositories zu bewerten. Wir sammeln Pull Requests aus 83 GitHub-Repositories und verwenden regelbasierte und intentbasierte Filterung, um Aufgabeninstanzen zu konstruieren, die sich auf die Entwicklung neuer Funktionen konzentrieren. Jede Aufgabeninstanz mit Codeänderungen wird mit relevanten Unit-Test-Dateien gepaart, um sicherzustellen, dass die Lösung überprüft werden kann. Die Implementierung der Funktion erfordert, dass LLMs gleichzeitig Code-Vervollständigungsfähigkeiten für neue Komponenten und Code-Bearbeitungsfähigkeiten für andere relevante Teile im Code-Repository besitzen, was eine umfassendere Bewertungsmethode der automatisierten Softwareentwicklungsfähigkeiten von LLMs bietet. Experimentelle Ergebnisse zeigen, dass LLMs in FEA-Bench deutlich schlechter abschneiden, was erhebliche Herausforderungen bei solcher Repository-Level-inkrementellen Code-Entwicklung verdeutlicht.
English
Implementing new features in repository-level codebases is a crucial
application of code generation models. However, current benchmarks lack a
dedicated evaluation framework for this capability. To fill this gap, we
introduce FEA-Bench, a benchmark designed to assess the ability of large
language models (LLMs) to perform incremental development within code
repositories. We collect pull requests from 83 GitHub repositories and use
rule-based and intent-based filtering to construct task instances focused on
new feature development. Each task instance containing code changes is paired
with relevant unit test files to ensure that the solution can be verified. The
feature implementation requires LLMs to simultaneously possess code completion
capabilities for new components and code editing abilities for other relevant
parts in the code repository, providing a more comprehensive evaluation method
of LLMs' automated software engineering capabilities. Experimental results show
that LLMs perform significantly worse in the FEA-Bench, highlighting
considerable challenges in such repository-level incremental code development.Summary
AI-Generated Summary