ChatPaper.aiChatPaper

SWE-Gym를 사용하여 소프트웨어 엔지니어링 에이전트 및 확인자를 훈련하기

Training Software Engineering Agents and Verifiers with SWE-Gym

December 30, 2024
저자: Jiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang
cs.AI

초록

우리는 SWE-Gym을 제시합니다. 이는 실제 소프트웨어 엔지니어링(SWE) 에이전트를 훈련하기 위한 첫 환경입니다. SWE-Gym에는 각각이 실행 가능한 런타임 환경, 단위 테스트 및 자연어로 지정된 작업을 포함하는 2,438개의 실제 Python 작업 인스턴스가 포함되어 있습니다. 우리는 SWE-Gym을 사용하여 언어 모델 기반 SWE 에이전트를 훈련시켜, 인기 있는 SWE-Bench Verified 및 Lite 테스트 세트에서 해결 속도에서 최대 19%의 절대적인 향상을 달성했습니다. 또한 SWE-Gym에서 샘플링된 에이전트 궤적을 기반으로 훈련된 확인자를 통해 추론 시간 스케일링을 실험했습니다. 우리의 세밀하게 조정된 SWE 에이전트와 결합하면, 각각 SWE-Bench Verified 및 Lite에서 32.0% 및 26.0%를 달성하여, 오픈 웨이트 SWE 에이전트에 대한 최신 기술을 반영하고 있습니다. 더 많은 연구를 촉진하기 위해, 우리는 SWE-Gym, 모델 및 에이전트 궤적을 공개적으로 공개합니다.
English
We present SWE-Gym, the first environment for training real-world software engineering (SWE) agents. SWE-Gym contains 2,438 real-world Python task instances, each comprising a codebase with an executable runtime environment, unit tests, and a task specified in natural language. We use SWE-Gym to train language model based SWE agents , achieving up to 19% absolute gains in resolve rate on the popular SWE-Bench Verified and Lite test sets. We also experiment with inference-time scaling through verifiers trained on agent trajectories sampled from SWE-Gym. When combined with our fine-tuned SWE agents, we achieve 32.0% and 26.0% on SWE-Bench Verified and Lite, respectively, reflecting a new state-of-the-art for open-weight SWE agents. To facilitate further research, we publicly release SWE-Gym, models, and agent trajectories.

Summary

AI-Generated Summary

PDF222December 31, 2024