SWE-RL: Развитие рассуждений на основе LLM с помощью обучения с подкреплением на открытой эволюции программного обеспечения
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
February 25, 2025
Авторы: Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang
cs.AI
Аннотация
Недавний релиз DeepSeek-R1 продемонстрировал огромный потенциал обучения с подкреплением (RL) в улучшении общих способностей рассуждения крупных языковых моделей (LLM). В то время как DeepSeek-R1 и другие последующие работы в основном сосредотачиваются на применении RL к соревновательному программированию и математическим задачам, настоящая статья представляет SWE-RL, первый подход к масштабированию рассуждения на основе RL для реальной инженерии программного обеспечения. Используя легковесную правило-основанную систему вознаграждения (например, оценку сходства между истинными и LLM-сгенерированными решениями), SWE-RL позволяет LLM автономно восстанавливать процессы рассуждения разработчика и решения, изучая обширные данные по эволюции программного обеспечения с открытым исходным кодом - историю жизненного цикла программного обеспечения, включая его снимки кода, изменения кода и события, такие как задачи и запросы на включение изменений. Обученная поверх Llama 3, наша полученная модель рассуждения, Llama3-SWE-RL-70B, достигает показателя решения 41,0% на SWE-bench Verified - коллекции реальных проблем GitHub, подтвержденных людьми. На наш взгляд, это лучший показатель производительности, сообщенный до настоящего времени для среднего размера (<100B) LLM, даже сравнимый с ведущими собственными LLM, такими как GPT-4o. Удивительно, несмотря на то что обучение RL происходит исключительно на данных эволюции программного обеспечения, Llama3-SWE-RL даже приобрела обобщенные навыки рассуждения. Например, она показывает улучшенные результаты на пяти задачах вне области, а именно, программирование функций, использование библиотек, рассуждение о коде, математика и общее понимание языка, в то время как базовая линия с обучением с учителем даже приводит к снижению производительности в среднем. В целом, SWE-RL открывает новое направление для улучшения способностей рассуждения LLM через обучение с подкреплением на обширных данных по инженерии программного обеспечения.
English
The recent DeepSeek-R1 release has demonstrated the immense potential of
reinforcement learning (RL) in enhancing the general reasoning capabilities of
large language models (LLMs). While DeepSeek-R1 and other follow-up work
primarily focus on applying RL to competitive coding and math problems, this
paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for
real-world software engineering. Leveraging a lightweight rule-based reward
(e.g., the similarity score between ground-truth and LLM-generated solutions),
SWE-RL enables LLMs to autonomously recover a developer's reasoning processes
and solutions by learning from extensive open-source software evolution data --
the record of a software's entire lifecycle, including its code snapshots, code
changes, and events such as issues and pull requests. Trained on top of Llama
3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve
rate on SWE-bench Verified -- a human-verified collection of real-world GitHub
issues. To our knowledge, this is the best performance reported for
medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs
like GPT-4o. Surprisingly, despite performing RL solely on software evolution
data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For
example, it shows improved results on five out-of-domain tasks, namely,
function coding, library use, code reasoning, mathematics, and general language
understanding, whereas a supervised-finetuning baseline even leads to
performance degradation on average. Overall, SWE-RL opens up a new direction to
improve the reasoning capabilities of LLMs through reinforcement learning on
massive software engineering data.Summary
AI-Generated Summary