コード報酬モデリングのためのユニットテストの動的スケーリング

Dynamic Scaling of Unit Tests for Code Reward Modeling

January 2, 2025
著者: Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang
cs.AI

要旨

現在の大規模言語モデル(LLM)は、コード生成などの複雑な推論タスクにおいて、初回の試行で正確な応答を生成することが難しいことがよくあります。これに対処する先行研究では、複数の候補解を生成し、LLMが生成した単体テストでそれらを検証することでこの課題に取り組んでいます。単体テストの実行結果は、正しい解を特定するための報酬信号として機能します。LLMは常に自信を持って間違いを com するため、これらの単体テストは信頼性に欠け、報酬信号の品質が低下します。解の数をスケーリングすることがLLMのパフォーマンスを向上させることを示す観察に基づき、報酬信号の品質を向上させるために単体テストのスケーリングの影響を探究します。当初の実験では、単体テストの数と報酬信号の品質との間に正の相関があり、より困難な問題ではより大きな利益が観察されました。これらの知見に基づき、効率的で高品質な単体テストのスケーリングを可能にする軽量な単体テストジェネレータであるCodeRM-8Bを提案します。さらに、問題の難易度に基づいて単体テストの数を適応させる動的スケーリングメカニズムを実装し、効率をさらに向上させます。実験結果は、当社の手法がさまざまなモデルで性能を大幅に向上させることを示し、3つのベンチマーク(例:Llama3-8Bで18.43%、GPT-4o-miniで3.42%の向上)でその効果が確認されました。
English
Current large language models (LLMs) often struggle to produce accurate responses on the first attempt for complex reasoning tasks like code generation. Prior research tackles this challenge by generating multiple candidate solutions and validating them with LLM-generated unit tests. The execution results of unit tests serve as reward signals to identify correct solutions. As LLMs always confidently make mistakes, these unit tests are not reliable, thereby diminishing the quality of reward signals. Motivated by the observation that scaling the number of solutions improves LLM performance, we explore the impact of scaling unit tests to enhance reward signal quality. Our pioneer experiment reveals a positive correlation between the number of unit tests and reward signal quality, with greater benefits observed in more challenging problems. Based on these insights, we propose CodeRM-8B, a lightweight yet effective unit test generator that enables efficient and high-quality unit test scaling. Additionally, we implement a dynamic scaling mechanism that adapts the number of unit tests based on problem difficulty, further improving efficiency. Experimental results show that our approach significantly improves performance across various models on three benchmarks (e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on HumanEval Plus).

Summary

AI-Generated Summary

PDF172January 3, 2025