コード報酬モデリングのためのユニットテストの動的スケーリング
Dynamic Scaling of Unit Tests for Code Reward Modeling
January 2, 2025
著者: Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang
cs.AI
要旨
現在の大規模言語モデル(LLM)は、コード生成などの複雑な推論タスクにおいて、初回の試行で正確な応答を生成することが難しいことがよくあります。これに対処する先行研究では、複数の候補解を生成し、LLMが生成した単体テストでそれらを検証することでこの課題に取り組んでいます。単体テストの実行結果は、正しい解を特定するための報酬信号として機能します。LLMは常に自信を持って間違いを com するため、これらの単体テストは信頼性に欠け、報酬信号の品質が低下します。解の数をスケーリングすることがLLMのパフォーマンスを向上させることを示す観察に基づき、報酬信号の品質を向上させるために単体テストのスケーリングの影響を探究します。当初の実験では、単体テストの数と報酬信号の品質との間に正の相関があり、より困難な問題ではより大きな利益が観察されました。これらの知見に基づき、効率的で高品質な単体テストのスケーリングを可能にする軽量な単体テストジェネレータであるCodeRM-8Bを提案します。さらに、問題の難易度に基づいて単体テストの数を適応させる動的スケーリングメカニズムを実装し、効率をさらに向上させます。実験結果は、当社の手法がさまざまなモデルで性能を大幅に向上させることを示し、3つのベンチマーク(例:Llama3-8Bで18.43%、GPT-4o-miniで3.42%の向上)でその効果が確認されました。
English
Current large language models (LLMs) often struggle to produce accurate
responses on the first attempt for complex reasoning tasks like code
generation. Prior research tackles this challenge by generating multiple
candidate solutions and validating them with LLM-generated unit tests. The
execution results of unit tests serve as reward signals to identify correct
solutions. As LLMs always confidently make mistakes, these unit tests are not
reliable, thereby diminishing the quality of reward signals. Motivated by the
observation that scaling the number of solutions improves LLM performance, we
explore the impact of scaling unit tests to enhance reward signal quality. Our
pioneer experiment reveals a positive correlation between the number of unit
tests and reward signal quality, with greater benefits observed in more
challenging problems. Based on these insights, we propose CodeRM-8B, a
lightweight yet effective unit test generator that enables efficient and
high-quality unit test scaling. Additionally, we implement a dynamic scaling
mechanism that adapts the number of unit tests based on problem difficulty,
further improving efficiency. Experimental results show that our approach
significantly improves performance across various models on three benchmarks
(e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on
HumanEval Plus).Summary
AI-Generated Summary