Supervisione del processo di perfezionamento dell'output per la generazione di codice
Outcome-Refining Process Supervision for Code Generation
December 19, 2024
Autori: Zhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang
cs.AI
Abstract
I Large Language Models hanno dimostrato notevoli capacità nella generazione di codice, tuttavia spesso faticano con compiti di programmazione complessi che richiedono un profondo ragionamento algoritmico. Mentre la supervisione del processo tramite modelli di ricompensa appresi mostra promesse nel guidare i passaggi di ragionamento, richiede dati di addestramento costosi e soffre di valutazioni non affidabili. Proponiamo la Supervisione del Processo di Rifinitura dell'Outcome, un nuovo paradigma che tratta la rifinitura dell'outcome stesso come il processo da supervisionare. Il nostro framework sfrutta segnali di esecuzione concreti per fondare la supervisione dei passaggi di ragionamento, utilizzando esplorazioni strutturate a albero per mantenere contemporaneamente più traiettorie di soluzione. Gli esperimenti dimostrano che il nostro approccio consente persino a modelli più piccoli di raggiungere un'alta precisione di successo e metriche di performance su compiti di programmazione competitiva, creando una verifica più affidabile rispetto ai modelli di ricompensa tradizionali senza richiedere PRM di addestramento. Il nostro approccio ottiene miglioramenti significativi su 5 modelli e 3 set di dati: in media un aumento del 26,9% nella correttezza e del 42,2% nell'efficienza. I risultati suggeriscono che fornire uno spazio di ragionamento strutturato con segnali di verifica concreti è cruciale per risolvere compiti di programmazione complessi. Mettiamo a disposizione tutto il nostro codice e i dati su: https://github.com/zhuohaoyu/ORPS
English
Large Language Models have demonstrated remarkable capabilities in code
generation, yet they often struggle with complex programming tasks that require
deep algorithmic reasoning. While process supervision through learned reward
models shows promise in guiding reasoning steps, it requires expensive training
data and suffers from unreliable evaluation. We propose Outcome-Refining
Process Supervision, a novel paradigm that treats outcome refinement itself as
the process to be supervised. Our framework leverages concrete execution
signals to ground the supervision of reasoning steps, while using
tree-structured exploration to maintain multiple solution trajectories
simultaneously. Experiments demonstrate that our approach enables even smaller
models to achieve high success accuracy and performance metrics on competitive
programming tasks, creates more reliable verification than traditional reward
models without requiring training PRMs. Our approach achieves significant
improvements across 5 models and 3 datasets: an average of 26.9% increase in
correctness and 42.2% in efficiency. The results suggest that providing
structured reasoning space with concrete verification signals is crucial for
solving complex programming tasks. We open-source all our code and data at:
https://github.com/zhuohaoyu/ORPSSummary
AI-Generated Summary