Multi-SWE-bench: Un Benchmark Multilingue per la Risoluzione di Problemi
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
April 3, 2025
Autori: Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, Siyao Liu, Yongsheng Xiao, Liangqiang Chen, Yuyu Zhang, Jing Su, Tianyu Liu, Rui Long, Kai Shen, Liang Xiang
cs.AI
Abstract
Il compito di risoluzione dei problemi consiste nel modificare una base di codice per generare una patch che affronti un determinato problema. Tuttavia, i benchmark esistenti, come SWE-bench, si concentrano quasi esclusivamente su Python, rendendoli insufficienti per valutare i Large Language Model (LLM) in ecosistemi software diversificati. Per affrontare questa limitazione, introduciamo un benchmark multilingue per la risoluzione di problemi, chiamato Multi-SWE-bench, che copre Java, TypeScript, JavaScript, Go, Rust, C e C++. Esso include un totale di 1.632 istanze di alta qualità, accuratamente annotate da 68 esperti annotatori partendo da 2.456 candidati, garantendo che il benchmark possa fornire una valutazione accurata e affidabile. Basandoci su Multi-SWE-bench, valutiamo una serie di modelli all'avanguardia utilizzando tre metodi rappresentativi (Agentless, SWE-agent e OpenHands) e presentiamo un'analisi completa con intuizioni empiriche chiave. Inoltre, lanciamo una comunità open-source Multi-SWE-RL, con l'obiettivo di costruire dataset di addestramento su larga scala per il reinforcement learning (RL) applicato ai compiti di risoluzione dei problemi. Come contributo iniziale, rilasciamo un set di 4.723 istanze ben strutturate che coprono sette linguaggi di programmazione, gettando una solida base per la ricerca in RL in questo ambito. Ancora più importante, rendiamo open-source l'intera pipeline di produzione dei dati, insieme a tutorial dettagliati, incoraggiando la comunità open-source a contribuire continuamente e ad espandere il dataset. Immaginiamo che il nostro Multi-SWE-bench e la comunità Multi-SWE-RL in continua crescita possano fungere da catalizzatori per far progredire il RL verso il suo pieno potenziale, avvicinandoci ulteriormente all'alba dell'AGI.
English
The task of issue resolving is to modify a codebase to generate a patch that
addresses a given issue. However, existing benchmarks, such as SWE-bench, focus
almost exclusively on Python, making them insufficient for evaluating Large
Language Models (LLMs) across diverse software ecosystems. To address this, we
introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench,
covering Java, TypeScript, JavaScript, Go, Rust, C, and C++. It includes a
total of 1,632 high-quality instances, which were carefully annotated from
2,456 candidates by 68 expert annotators, ensuring that the benchmark can
provide an accurate and reliable evaluation. Based on Multi-SWE-bench, we
evaluate a series of state-of-the-art models using three representative methods
(Agentless, SWE-agent, and OpenHands) and present a comprehensive analysis with
key empirical insights. In addition, we launch a Multi-SWE-RL open-source
community, aimed at building large-scale reinforcement learning (RL) training
datasets for issue-resolving tasks. As an initial contribution, we release a
set of 4,723 well-structured instances spanning seven programming languages,
laying a solid foundation for RL research in this domain. More importantly, we
open-source our entire data production pipeline, along with detailed tutorials,
encouraging the open-source community to continuously contribute and expand the
dataset. We envision our Multi-SWE-bench and the ever-growing Multi-SWE-RL
community as catalysts for advancing RL toward its full potential, bringing us
one step closer to the dawn of AGI.Summary
AI-Generated Summary