Supervisão do Processo de Refinamento de Resultados para Geração de Código
Outcome-Refining Process Supervision for Code Generation
December 19, 2024
Autores: Zhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang
cs.AI
Resumo
Grandes Modelos de Linguagem têm demonstrado capacidades notáveis na geração de código, no entanto, frequentemente enfrentam dificuldades em tarefas de programação complexas que exigem um raciocínio algorítmico profundo. Enquanto a supervisão do processo por meio de modelos de recompensa aprendidos mostra promessa em orientar os passos de raciocínio, ela requer dados de treinamento caros e sofre de avaliação não confiável. Propomos a Supervisão de Processo de Refinamento de Resultados, um novo paradigma que trata o refinamento de resultados em si como o processo a ser supervisionado. Nosso framework aproveita sinais de execução concretos para fundamentar a supervisão dos passos de raciocínio, enquanto utiliza exploração estruturada em árvore para manter várias trajetórias de solução simultaneamente. Experimentos demonstram que nossa abordagem permite até mesmo que modelos menores alcancem alta precisão de sucesso e métricas de desempenho em tarefas de programação competitivas, criando uma verificação mais confiável do que os modelos de recompensa tradicionais sem exigir treinamento PRMs. Nossa abordagem alcança melhorias significativas em 5 modelos e 3 conjuntos de dados: uma média de 26,9% de aumento na correção e 42,2% na eficiência. Os resultados sugerem que fornecer um espaço de raciocínio estruturado com sinais de verificação concretos é crucial para resolver tarefas de programação complexas. Disponibilizamos todo o nosso código e dados em código aberto em: https://github.com/zhuohaoyu/ORPS
English
Large Language Models have demonstrated remarkable capabilities in code
generation, yet they often struggle with complex programming tasks that require
deep algorithmic reasoning. While process supervision through learned reward
models shows promise in guiding reasoning steps, it requires expensive training
data and suffers from unreliable evaluation. We propose Outcome-Refining
Process Supervision, a novel paradigm that treats outcome refinement itself as
the process to be supervised. Our framework leverages concrete execution
signals to ground the supervision of reasoning steps, while using
tree-structured exploration to maintain multiple solution trajectories
simultaneously. Experiments demonstrate that our approach enables even smaller
models to achieve high success accuracy and performance metrics on competitive
programming tasks, creates more reliable verification than traditional reward
models without requiring training PRMs. Our approach achieves significant
improvements across 5 models and 3 datasets: an average of 26.9% increase in
correctness and 42.2% in efficiency. The results suggest that providing
structured reasoning space with concrete verification signals is crucial for
solving complex programming tasks. We open-source all our code and data at:
https://github.com/zhuohaoyu/ORPSSummary
AI-Generated Summary