ChatPaper.aiChatPaper

Abstract. In this work, we introduce SoRFT, a novel framework for resolving complex issues by decomposing them into subtasks and applying reinforced fine-tuning. Traditional approaches often struggle with intricate problems that require multi-step reasoning and adaptation. SoRFT addresses this by breaking down the main task into manageable subtasks, each fine-tuned with reinforcement learning to optimize performance. Our experiments demonstrate that SoRFT significantly outperforms baseline methods across various benchmarks, showcasing its effectiveness in handling complex, multi-faceted challenges. The framework's modular design also allows for easy integration with existing systems, making it a versatile tool for real-world applications. Keywords: Subtask decomposition, reinforced fine-tuning, multi-step reasoning, complex issue resolution, modular frameworkSoRFT: Решение задач с использованием тонкой настройки, ориентированной на подзадачи, с подкреплением Аннотация. В данной работе мы представляем SoRFT — новый подход к решению сложных задач путем их декомпозиции на подзадачи и применения тонкой настройки с подкреплением. Традиционные методы часто сталкиваются с трудностями при решении сложных проблем, требующих многошагового рассуждения и адаптации. SoRFT решает эту проблему, разбивая основную задачу на управляемые подзадачи, каждая из которых настраивается с использованием обучения с подкреплением для оптимизации производительности. Наши эксперименты показывают, что SoRFT значительно превосходит базовые методы на различных тестовых наборах, демонстрируя свою эффективность в решении сложных, многогранных задач. Модульная структура фреймворка также позволяет легко интегрировать его в существующие системы, делая его универсальным инструментом для практического применения. Ключевые слова: декомпозиция подзадач, тонкая настройка с подкреплением, многошаговое рассуждение, решение сложных задач, модульный фреймворк

SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

February 27, 2025
Авторы: Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie
cs.AI

Аннотация

Основные фреймворки для решения проблем преимущественно опираются на коммерческие модели, что приводит к высоким затратам и проблемам с конфиденциальностью. Существующие подходы к обучению для решения проблем страдают от слабой обобщающей способности и не в полной мере используют ресурсы открытого исходного кода. Мы предлагаем Subtask-oriented Reinforced Fine-Tuning (SoRFT) — новый подход к обучению, направленный на повышение способности крупных языковых моделей (LLM) решать проблемы. Мы разбиваем процесс решения проблем на структурированные подзадачи: локализация файла, локализация функции, локализация строки и генерация изменений кода. SoRFT состоит из двух этапов обучения: (1) контролируемое тонкое настройка с использованием отбора методом отклонения, где данные Chain of Thought (CoT) фильтруются на основе эталонных данных перед тонкой настройкой LLM, и (2) обучение с подкреплением на основе правил, которое использует алгоритм PPO с вознаграждениями, основанными на эталонных данных. Мы оцениваем модель, обученную с помощью SoRFT, на наборах данных SWE-Bench Verified и SWE-Bench Lite, достигая наилучших результатов среди моделей с открытым исходным кодом (например, решение 21,4% проблем на SWE-Bench Verified с SoRFT-Qwen-7B). Результаты экспериментов показывают, что SoRFT значительно улучшает производительность в решении проблем, повышает обобщающую способность модели и предоставляет экономически эффективную альтернативу коммерческим моделям.
English
Mainstream issue-resolving frameworks predominantly rely on commercial models, leading to high costs and privacy concerns. Existing training approaches for issue resolving struggle with poor generalization and fail to fully leverage open-source development resources. We propose Subtask-oriented Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue resolving capability of LLMs. We decomposes issue resolving into structured subtasks: file localization, function localization, line localization, and code edit generation. SoRFT consists of two training stages: (1) rejection-sampled supervised fine-tuning, Chain of Thought (CoT) data is filtered using ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement learning, which leverages PPO with ground-truth based rewards. We evaluate the SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving state-of-the-art (SOTA) performance among open-source models (e.g., resolve 21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental results demonstrate that SoRFT significantly enhances issue-resolving performance, improves model generalization, and provides a cost-efficient alternative to commercial models.

Summary

AI-Generated Summary

PDF92February 28, 2025