ChatPaper.aiChatPaper

SWE-RL: Развитие рассуждений на основе LLM с помощью обучения с подкреплением на открытой эволюции программного обеспечения

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

February 25, 2025
Авторы: Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang
cs.AI

Аннотация

Недавний релиз DeepSeek-R1 продемонстрировал огромный потенциал обучения с подкреплением (RL) в улучшении общих способностей рассуждения крупных языковых моделей (LLM). В то время как DeepSeek-R1 и другие последующие работы в основном сосредотачиваются на применении RL к соревновательному программированию и математическим задачам, настоящая статья представляет SWE-RL, первый подход к масштабированию рассуждения на основе RL для реальной инженерии программного обеспечения. Используя легковесную правило-основанную систему вознаграждения (например, оценку сходства между истинными и LLM-сгенерированными решениями), SWE-RL позволяет LLM автономно восстанавливать процессы рассуждения разработчика и решения, изучая обширные данные по эволюции программного обеспечения с открытым исходным кодом - историю жизненного цикла программного обеспечения, включая его снимки кода, изменения кода и события, такие как задачи и запросы на включение изменений. Обученная поверх Llama 3, наша полученная модель рассуждения, Llama3-SWE-RL-70B, достигает показателя решения 41,0% на SWE-bench Verified - коллекции реальных проблем GitHub, подтвержденных людьми. На наш взгляд, это лучший показатель производительности, сообщенный до настоящего времени для среднего размера (<100B) LLM, даже сравнимый с ведущими собственными LLM, такими как GPT-4o. Удивительно, несмотря на то что обучение RL происходит исключительно на данных эволюции программного обеспечения, Llama3-SWE-RL даже приобрела обобщенные навыки рассуждения. Например, она показывает улучшенные результаты на пяти задачах вне области, а именно, программирование функций, использование библиотек, рассуждение о коде, математика и общее понимание языка, в то время как базовая линия с обучением с учителем даже приводит к снижению производительности в среднем. В целом, SWE-RL открывает новое направление для улучшения способностей рассуждения LLM через обучение с подкреплением на обширных данных по инженерии программного обеспечения.
English
The recent DeepSeek-R1 release has demonstrated the immense potential of reinforcement learning (RL) in enhancing the general reasoning capabilities of large language models (LLMs). While DeepSeek-R1 and other follow-up work primarily focus on applying RL to competitive coding and math problems, this paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for real-world software engineering. Leveraging a lightweight rule-based reward (e.g., the similarity score between ground-truth and LLM-generated solutions), SWE-RL enables LLMs to autonomously recover a developer's reasoning processes and solutions by learning from extensive open-source software evolution data -- the record of a software's entire lifecycle, including its code snapshots, code changes, and events such as issues and pull requests. Trained on top of Llama 3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve rate on SWE-bench Verified -- a human-verified collection of real-world GitHub issues. To our knowledge, this is the best performance reported for medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs like GPT-4o. Surprisingly, despite performing RL solely on software evolution data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For example, it shows improved results on five out-of-domain tasks, namely, function coding, library use, code reasoning, mathematics, and general language understanding, whereas a supervised-finetuning baseline even leads to performance degradation on average. Overall, SWE-RL opens up a new direction to improve the reasoning capabilities of LLMs through reinforcement learning on massive software engineering data.

Summary

AI-Generated Summary

PDF675February 26, 2025