Campiona, Non Cercare: Ripensare l'Allineamento al Momento del Test per i Modelli Linguistici

Abstract

L'aumento del calcolo al momento del test è emerso come una direzione promettente per migliorare le prestazioni dei modelli linguistici, in particolare negli scenari in cui il fine-tuning del modello è impraticabile o impossibile a causa di vincoli computazionali o di pesi del modello privati. Tuttavia, i metodi esistenti di ricerca al momento del test che utilizzano un modello di ricompensa (RM) spesso peggiorano in qualità man mano che il calcolo aumenta, a causa dell'ottimizzazione eccessiva di quelli che sono intrinsecamente proxy di ricompensa imperfetti. Introduciamo QAlign, un nuovo approccio di allineamento al momento del test. Man mano che aumentiamo il calcolo al momento del test, QAlign converge a campionare dalla distribuzione allineata ottimale per ogni singolo prompt. Adottando i recenti progressi nel Markov chain Monte Carlo per la generazione di testo, il nostro metodo consente output meglio allineati senza modificare il modello sottostante o addirittura senza richiedere l'accesso ai logit. Dimostriamo l'efficacia di QAlign su benchmark di ragionamento matematico (GSM8K e GSM-Symbolic) utilizzando un RM specifico per il compito, mostrando miglioramenti costanti rispetto ai metodi esistenti di calcolo al momento del test come best-of-n e voto a maggioranza. Inoltre, quando applicato con RM più realistici addestrati sul dataset di preferenze Tulu 3, QAlign supera l'ottimizzazione diretta delle preferenze (DPO), best-of-n, voto a maggioranza e voto a maggioranza ponderato su una gamma diversificata di dataset (GSM8K, MATH500, IFEval, MMLU-Redux e TruthfulQA). Una soluzione pratica per allineare i modelli linguistici al momento del test utilizzando calcoli aggiuntivi senza degradazione, il nostro approccio espande i limiti delle capacità che possono essere ottenute da modelli linguistici pronti all'uso senza ulteriore addestramento.

English

Increasing test-time computation has emerged as a promising direction for improving language model performance, particularly in scenarios where model finetuning is impractical or impossible due to computational constraints or private model weights. However, existing test-time search methods using a reward model (RM) often degrade in quality as compute scales, due to the over-optimization of what are inherently imperfect reward proxies. We introduce QAlign, a new test-time alignment approach. As we scale test-time compute, QAlign converges to sampling from the optimal aligned distribution for each individual prompt. By adopting recent advances in Markov chain Monte Carlo for text generation, our method enables better-aligned outputs without modifying the underlying model or even requiring logit access. We demonstrate the effectiveness of QAlign on mathematical reasoning benchmarks (GSM8K and GSM-Symbolic) using a task-specific RM, showing consistent improvements over existing test-time compute methods like best-of-n and majority voting. Furthermore, when applied with more realistic RMs trained on the Tulu 3 preference dataset, QAlign outperforms direct preference optimization (DPO), best-of-n, majority voting, and weighted majority voting on a diverse range of datasets (GSM8K, MATH500, IFEval, MMLU-Redux, and TruthfulQA). A practical solution to aligning language models at test time using additional computation without degradation, our approach expands the limits of the capability that can be obtained from off-the-shelf language models without further training.

Campiona, Non Cercare: Ripensare l'Allineamento al Momento del Test per i Modelli Linguistici

Sample, Don't Search: Rethinking Test-Time Alignment for Language Models

Abstract

Summary

Support

Support