M2rc-Eval: Grootschalige Meertalige Repository-niveau Code-aanvulling Evaluatie
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation
October 28, 2024
Auteurs: Jiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng
cs.AI
Samenvatting
Het niveau van code-aanvulling op repository-niveau heeft veel aandacht gekregen in de software-engineering, en verschillende benchmark datasets zijn geïntroduceerd. Echter, bestaande benchmark datasets voor code-aanvulling op repository-niveau richten zich meestal op een beperkt aantal talen (<5), wat niet de algemene code-intelligentievaardigheden kan evalueren over verschillende talen voor bestaande Large Language Models (LLMs). Bovendien rapporteren de bestaande benchmarks meestal algemene gemiddelde scores voor verschillende talen, waarbij de gedetailleerde vaardigheden in verschillende aanvullingsscenario's worden genegeerd. Daarom stellen we, om het onderzoek naar code-LLMs in meertalige scenario's te vergemakkelijken, een grootschalige meertalige benchmark voor code-aanvulling op repository-niveau voor die 18 programmeertalen bestrijkt (genaamd M2RC-EVAL), en twee soorten gedetailleerde annotaties (d.w.z. bucket-niveau en semantisch niveau) voor verschillende aanvullingsscenario's worden verstrekt, waarbij we deze annotaties verkrijgen op basis van de geparseerde abstracte syntaxisboom. Bovendien cureren we ook een grootschalige meertalige instructiecorpora M2RC-INSTRUCT dataset om de code-aanvullingsvaardigheden op repository-niveau van bestaande code-LLMs te verbeteren. Uitgebreide experimentele resultaten tonen de effectiviteit van onze M2RC-EVAL en M2RC-INSTRUCT aan.
English
Repository-level code completion has drawn great attention in software
engineering, and several benchmark datasets have been introduced. However,
existing repository-level code completion benchmarks usually focus on a limited
number of languages (<5), which cannot evaluate the general code intelligence
abilities across different languages for existing code Large Language Models
(LLMs). Besides, the existing benchmarks usually report overall average scores
of different languages, where the fine-grained abilities in different
completion scenarios are ignored. Therefore, to facilitate the research of code
LLMs in multilingual scenarios, we propose a massively multilingual
repository-level code completion benchmark covering 18 programming languages
(called M2RC-EVAL), and two types of fine-grained annotations (i.e.,
bucket-level and semantic-level) on different completion scenarios are
provided, where we obtain these annotations based on the parsed abstract syntax
tree. Moreover, we also curate a massively multilingual instruction corpora
M2RC- INSTRUCT dataset to improve the repository-level code completion
abilities of existing code LLMs. Comprehensive experimental results demonstrate
the effectiveness of our M2RC-EVAL and M2RC-INSTRUCT.Summary
AI-Generated Summary