Многократная генерация кода через одношаговые вознаграждения
Multi-Turn Code Generation Through Single-Step Rewards
February 27, 2025
Авторы: Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury
cs.AI
Аннотация
Мы рассматриваем задачу генерации кода на основе многошаговой обратной связи по выполнению.
Существующие методы либо генерируют код без учета обратной связи, либо используют сложное
иерархическое обучение с подкреплением для оптимизации многошаговых наград. Мы предлагаем
простой, но масштабируемый подход, muCode, который решает задачу многошаговой генерации кода,
используя только одношаговые награды. Наше ключевое наблюдение заключается в том, что генерация
кода представляет собой одношаговый восстанавливаемый марковский процесс принятия решений (MDP),
где правильный код может быть восстановлен из любого промежуточного состояния кода за один шаг.
muCode итеративно обучает как генератор, предоставляющий решения по коду с учетом многошаговой
обратной связи по выполнению, так и верификатор, оценивающий вновь сгенерированный код.
Экспериментальные оценки показывают, что наш подход достигает значительных улучшений по сравнению
с современными базовыми методами. Мы предоставляем анализ выбора моделей наград и политики, а также
демонстрируем эффективность muCode в использовании обратной связи по выполнению. Наш код доступен по
адресу https://github.com/portal-cornell/muCode.
English
We address the problem of code generation from multi-turn execution feedback.
Existing methods either generate code without feedback or use complex,
hierarchical reinforcement learning to optimize multi-turn rewards. We propose
a simple yet scalable approach, muCode, that solves multi-turn code
generation using only single-step rewards. Our key insight is that code
generation is a one-step recoverable MDP, where the correct code can be
recovered from any intermediate code state in a single turn. muCode
iteratively trains both a generator to provide code solutions conditioned on
multi-turn execution feedback and a verifier to score the newly generated code.
Experimental evaluations show that our approach achieves significant
improvements over the state-of-the-art baselines. We provide analysis of the
design choices of the reward models and policy, and show the efficacy of
muCode at utilizing the execution feedback. Our code is available at
https://github.com/portal-cornell/muCode.Summary
AI-Generated Summary