Dimensionamento Dinâmico de Testes Unitários para Modelagem de Recompensa de Código
Dynamic Scaling of Unit Tests for Code Reward Modeling
January 2, 2025
Autores: Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang
cs.AI
Resumo
Os atuais modelos de linguagem grandes (LLMs) frequentemente têm dificuldade em produzir respostas precisas na primeira tentativa para tarefas de raciocínio complexas, como geração de código. Pesquisas anteriores lidam com esse desafio gerando múltiplas soluções candidatas e validando-as com testes unitários gerados pelo LLM. Os resultados da execução dos testes unitários servem como sinais de recompensa para identificar as soluções corretas. Como os LLMs sempre cometem erros com confiança, esses testes unitários não são confiáveis, diminuindo assim a qualidade dos sinais de recompensa. Motivados pela observação de que aumentar o número de soluções melhora o desempenho do LLM, exploramos o impacto de escalar os testes unitários para aprimorar a qualidade do sinal de recompensa. Nosso experimento pioneiro revela uma correlação positiva entre o número de testes unitários e a qualidade do sinal de recompensa, com maiores benefícios observados em problemas mais desafiadores. Com base nessas percepções, propomos o CodeRM-8B, um gerador de testes unitários leve, porém eficaz, que possibilita a escalabilidade eficiente e de alta qualidade dos testes unitários. Além disso, implementamos um mecanismo de escalonamento dinâmico que adapta o número de testes unitários com base na dificuldade do problema, melhorando ainda mais a eficiência. Resultados experimentais mostram que nossa abordagem melhora significativamente o desempenho em vários modelos em três benchmarks (por exemplo, com ganhos de 18,43% para Llama3-8B e 3,42% para GPT-4o-mini no HumanEval Plus).
English
Current large language models (LLMs) often struggle to produce accurate
responses on the first attempt for complex reasoning tasks like code
generation. Prior research tackles this challenge by generating multiple
candidate solutions and validating them with LLM-generated unit tests. The
execution results of unit tests serve as reward signals to identify correct
solutions. As LLMs always confidently make mistakes, these unit tests are not
reliable, thereby diminishing the quality of reward signals. Motivated by the
observation that scaling the number of solutions improves LLM performance, we
explore the impact of scaling unit tests to enhance reward signal quality. Our
pioneer experiment reveals a positive correlation between the number of unit
tests and reward signal quality, with greater benefits observed in more
challenging problems. Based on these insights, we propose CodeRM-8B, a
lightweight yet effective unit test generator that enables efficient and
high-quality unit test scaling. Additionally, we implement a dynamic scaling
mechanism that adapts the number of unit tests based on problem difficulty,
further improving efficiency. Experimental results show that our approach
significantly improves performance across various models on three benchmarks
(e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on
HumanEval Plus).Summary
AI-Generated Summary