コード生成のための結果を洗練するプロセス監督
Outcome-Refining Process Supervision for Code Generation
December 19, 2024
著者: Zhuohao Yu, Weizheng Gu, Yidong Wang, Zhengran Zeng, Jindong Wang, Wei Ye, Shikun Zhang
cs.AI
要旨
大規模言語モデルは、コード生成において顕著な能力を示していますが、深いアルゴリズム的推論が必要な複雑なプログラミングタスクにはしばしば苦労します。学習された報酬モデルを介したプロセス監督は、推論ステップのガイドにおいて有望であるが、高価なトレーニングデータが必要であり、信頼性の低い評価に苦しんでいます。私たちは、アウトカムを洗練するプロセス監督という新しいパラダイムを提案します。このフレームワークは、推論ステップの監督対象としてアウトカムの洗練自体を扱います。私たちのアプローチは、具体的な実行シグナルを活用して推論ステップの監督を基礎付けし、同時に複数の解の軌跡を維持するために木構造の探索を使用します。実験では、私たちのアプローチがより小さなモデルでも競争的なプログラミングタスクにおいて高い成功精度とパフォーマンスメトリクスを達成できることが示され、従来の報酬モデルよりも信頼性の高い検証を作成でき、トレーニングPRMを必要としないことが示されました。私たちのアプローチは、5つのモデルと3つのデータセット全体で著しい改善を達成しています:正確性が平均26.9%、効率性が42.2%向上しています。結果は、具体的な検証シグナルを用いた構造化された推論空間を提供することが、複雑なプログラミングタスクの解決にとって重要であることを示唆しています。私たちはすべてのコードとデータを以下でオープンソース化しています:https://github.com/zhuohaoyu/ORPS
English
Large Language Models have demonstrated remarkable capabilities in code
generation, yet they often struggle with complex programming tasks that require
deep algorithmic reasoning. While process supervision through learned reward
models shows promise in guiding reasoning steps, it requires expensive training
data and suffers from unreliable evaluation. We propose Outcome-Refining
Process Supervision, a novel paradigm that treats outcome refinement itself as
the process to be supervised. Our framework leverages concrete execution
signals to ground the supervision of reasoning steps, while using
tree-structured exploration to maintain multiple solution trajectories
simultaneously. Experiments demonstrate that our approach enables even smaller
models to achieve high success accuracy and performance metrics on competitive
programming tasks, creates more reliable verification than traditional reward
models without requiring training PRMs. Our approach achieves significant
improvements across 5 models and 3 datasets: an average of 26.9% increase in
correctness and 42.2% in efficiency. The results suggest that providing
structured reasoning space with concrete verification signals is crucial for
solving complex programming tasks. We open-source all our code and data at:
https://github.com/zhuohaoyu/ORPSSummary
AI-Generated Summary