M2rc-Eval: 대규모 다국어 저장소 수준의 코드 완성 평가
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation
October 28, 2024
저자: Jiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng
cs.AI
초록
소스 코드 저장소 수준의 코드 완성은 소프트웨어 엔지니어링에서 큰 관심을 끌었으며, 여러 벤치마크 데이터셋이 소개되었습니다. 그러나 기존의 소스 코드 저장소 수준의 코드 완성 벤치마크는 일반적인 코드 지능 능력을 다양한 언어 간에 평가할 수 없는 제한된 언어(<5)에 주로 초점을 맞추고 있습니다. 또한 기존의 벤치마크는 일반적으로 다른 언어의 전반적인 평균 점수를 보고하며, 다양한 완성 시나리오에서의 세부적인 능력은 무시됩니다. 따라서 다국어 환경에서 코드 대형 언어 모델(LLMs)의 연구를 용이하게 하기 위해, 18가지 프로그래밍 언어를 포함하는 대규모 다국어 소스 코드 저장소 수준의 코드 완성 벤치마크(M2RC-EVAL)를 제안하며, 다양한 완성 시나리오에 대한 버킷 수준 및 의미 수준의 두 가지 세부적인 주석(즉, 버킷 수준 및 의미 수준)을 제공합니다. 이러한 주석은 파싱된 추상 구문 트리를 기반으로 얻었습니다. 게다가, 우리는 기존 코드 LLMs의 소스 코드 저장소 수준의 코드 완성 능력을 향상시키기 위해 대규모 다국어 지시어 말뭉치 M2RC-INSTRUCT 데이터셋을 정리했습니다. 포괄적인 실험 결과는 우리의 M2RC-EVAL 및 M2RC-INSTRUCT의 효과를 입증합니다.
English
Repository-level code completion has drawn great attention in software
engineering, and several benchmark datasets have been introduced. However,
existing repository-level code completion benchmarks usually focus on a limited
number of languages (<5), which cannot evaluate the general code intelligence
abilities across different languages for existing code Large Language Models
(LLMs). Besides, the existing benchmarks usually report overall average scores
of different languages, where the fine-grained abilities in different
completion scenarios are ignored. Therefore, to facilitate the research of code
LLMs in multilingual scenarios, we propose a massively multilingual
repository-level code completion benchmark covering 18 programming languages
(called M2RC-EVAL), and two types of fine-grained annotations (i.e.,
bucket-level and semantic-level) on different completion scenarios are
provided, where we obtain these annotations based on the parsed abstract syntax
tree. Moreover, we also curate a massively multilingual instruction corpora
M2RC- INSTRUCT dataset to improve the repository-level code completion
abilities of existing code LLMs. Comprehensive experimental results demonstrate
the effectiveness of our M2RC-EVAL and M2RC-INSTRUCT.Summary
AI-Generated Summary