Многократная генерация кода через одношаговые вознаграждения

Аннотация

Мы рассматриваем задачу генерации кода на основе многошаговой обратной связи по выполнению. Существующие методы либо генерируют код без учета обратной связи, либо используют сложное иерархическое обучение с подкреплением для оптимизации многошаговых наград. Мы предлагаем простой, но масштабируемый подход, muCode, который решает задачу многошаговой генерации кода, используя только одношаговые награды. Наше ключевое наблюдение заключается в том, что генерация кода представляет собой одношаговый восстанавливаемый марковский процесс принятия решений (MDP), где правильный код может быть восстановлен из любого промежуточного состояния кода за один шаг. muCode итеративно обучает как генератор, предоставляющий решения по коду с учетом многошаговой обратной связи по выполнению, так и верификатор, оценивающий вновь сгенерированный код. Экспериментальные оценки показывают, что наш подход достигает значительных улучшений по сравнению с современными базовыми методами. Мы предоставляем анализ выбора моделей наград и политики, а также демонстрируем эффективность muCode в использовании обратной связи по выполнению. Наш код доступен по адресу https://github.com/portal-cornell/muCode.

English

We address the problem of code generation from multi-turn execution feedback. Existing methods either generate code without feedback or use complex, hierarchical reinforcement learning to optimize multi-turn rewards. We propose a simple yet scalable approach, muCode, that solves multi-turn code generation using only single-step rewards. Our key insight is that code generation is a one-step recoverable MDP, where the correct code can be recovered from any intermediate code state in a single turn. muCode iteratively trains both a generator to provide code solutions conditioned on multi-turn execution feedback and a verifier to score the newly generated code. Experimental evaluations show that our approach achieves significant improvements over the state-of-the-art baselines. We provide analysis of the design choices of the reward models and policy, and show the efficacy of muCode at utilizing the execution feedback. Our code is available at https://github.com/portal-cornell/muCode.

Многократная генерация кода через одношаговые вознаграждения

Multi-Turn Code Generation Through Single-Step Rewards

Аннотация

Summary

Support