Scalatura dinamica dei test di unità per la modellazione della ricompensa del codice

Abstract

I modelli linguistici di grandi dimensioni (LLM) attuali spesso faticano a produrre risposte accurate al primo tentativo per complesse attività di ragionamento come la generazione di codice. Ricerche precedenti affrontano questa sfida generando molteplici soluzioni candidate e convalidandole con test unitari generati dai LLM. I risultati dell'esecuzione dei test unitari fungono da segnali di ricompensa per identificare le soluzioni corrette. Poiché i LLM commettono sempre errori con sicurezza, questi test unitari non sono affidabili, riducendo così la qualità dei segnali di ricompensa. Motivati dall'osservazione che aumentare il numero di soluzioni migliora le prestazioni dei LLM, esploriamo l'impatto dello scaling dei test unitari per migliorare la qualità del segnale di ricompensa. Il nostro esperimento pionieristico rivela una correlazione positiva tra il numero di test unitari e la qualità del segnale di ricompensa, con maggiori benefici osservati in problemi più impegnativi. Sulla base di queste intuizioni, proponiamo CodeRM-8B, un generatore di test unitari leggero ma efficace che consente uno scaling efficiente e di alta qualità dei test unitari. Inoltre, implementiamo un meccanismo di scaling dinamico che adatta il numero di test unitari in base alla difficoltà del problema, migliorando ulteriormente l'efficienza. I risultati sperimentali mostrano che il nostro approccio migliora significativamente le prestazioni su vari modelli su tre benchmark (ad esempio, con incrementi del 18,43% per Llama3-8B e del 3,42% per GPT-4o-mini su HumanEval Plus).

English

Current large language models (LLMs) often struggle to produce accurate responses on the first attempt for complex reasoning tasks like code generation. Prior research tackles this challenge by generating multiple candidate solutions and validating them with LLM-generated unit tests. The execution results of unit tests serve as reward signals to identify correct solutions. As LLMs always confidently make mistakes, these unit tests are not reliable, thereby diminishing the quality of reward signals. Motivated by the observation that scaling the number of solutions improves LLM performance, we explore the impact of scaling unit tests to enhance reward signal quality. Our pioneer experiment reveals a positive correlation between the number of unit tests and reward signal quality, with greater benefits observed in more challenging problems. Based on these insights, we propose CodeRM-8B, a lightweight yet effective unit test generator that enables efficient and high-quality unit test scaling. Additionally, we implement a dynamic scaling mechanism that adapts the number of unit tests based on problem difficulty, further improving efficiency. Experimental results show that our approach significantly improves performance across various models on three benchmarks (e.g., with gains of 18.43% for Llama3-8B and 3.42% for GPT-4o-mini on HumanEval Plus).

Scalatura dinamica dei test di unità per la modellazione della ricompensa del codice

Dynamic Scaling of Unit Tests for Code Reward Modeling

Abstract

Support