M2rc-Eval : Évaluation de l'achèvement de code au niveau du référentiel massivement multilingue
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation
October 28, 2024
Auteurs: Jiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng
cs.AI
Résumé
Le complément de code au niveau du référentiel a attiré une grande attention dans le domaine du génie logiciel, et plusieurs ensembles de données de référence ont été introduits. Cependant, les ensembles de données de référence existants pour le complément de code au niveau du référentiel se concentrent généralement sur un nombre limité de langages (<5), ce qui ne permet pas d'évaluer les capacités générales d'intelligence de code à travers différentes langues pour les grands modèles de langage de code existants (LLM). De plus, les ensembles de données de référence existants rapportent généralement des scores moyens globaux pour différentes langues, où les capacités fines dans différents scénarios de complétion sont ignorées. Par conséquent, pour faciliter la recherche des LLM de code dans des scénarios multilingues, nous proposons un ensemble de données de référence pour le complément de code au niveau du référentiel massivement multilingue couvrant 18 langages de programmation (appelé M2RC-EVAL), et deux types d'annotations fines (c'est-à-dire, au niveau du seau et au niveau sémantique) sur différents scénarios de complétion sont fournis, où nous obtenons ces annotations en fonction de l'arbre de syntaxe abstraite analysé. De plus, nous élaborons également un corpus d'instructions massivement multilingue, l'ensemble de données M2RC-INSTRUCT, pour améliorer les capacités de complément de code au niveau du référentiel des LLM de code existants. Des résultats expérimentaux complets démontrent l'efficacité de notre M2RC-EVAL et M2RC-INSTRUCT.
English
Repository-level code completion has drawn great attention in software
engineering, and several benchmark datasets have been introduced. However,
existing repository-level code completion benchmarks usually focus on a limited
number of languages (<5), which cannot evaluate the general code intelligence
abilities across different languages for existing code Large Language Models
(LLMs). Besides, the existing benchmarks usually report overall average scores
of different languages, where the fine-grained abilities in different
completion scenarios are ignored. Therefore, to facilitate the research of code
LLMs in multilingual scenarios, we propose a massively multilingual
repository-level code completion benchmark covering 18 programming languages
(called M2RC-EVAL), and two types of fine-grained annotations (i.e.,
bucket-level and semantic-level) on different completion scenarios are
provided, where we obtain these annotations based on the parsed abstract syntax
tree. Moreover, we also curate a massively multilingual instruction corpora
M2RC- INSTRUCT dataset to improve the repository-level code completion
abilities of existing code LLMs. Comprehensive experimental results demonstrate
the effectiveness of our M2RC-EVAL and M2RC-INSTRUCT.Summary
AI-Generated Summary