Ottimizzazione delle Preferenze di Auto-Consistenza

Abstract

L'auto-allineamento, mediante il quale i modelli imparano a migliorarsi senza annotazioni umane, è un'area di ricerca in rapida crescita. Tuttavia, le tecniche esistenti spesso falliscono nel migliorare compiti di ragionamento complessi a causa della difficoltà nell'assegnare ricompense corrette. Un approccio ortogonale noto per migliorare la correttezza è l'auto-coerenza, un metodo applicato al momento dell'infenza basato su campionamenti multipli per trovare la risposta più coerente. In questo lavoro, estendiamo il concetto di auto-coerenza per aiutare ad addestrare i modelli. Introduciamo quindi l'ottimizzazione delle preferenze di auto-coerenza (ScPO), che addestra iterativamente risposte coerenti a essere preferite rispetto a quelle incoerenti su nuovi problemi non supervisionati. Mostrando che ScPO porta a miglioramenti significativi rispetto all'addestramento del modello con ricompense convenzionali in compiti di ragionamento come GSM8K e MATH, riducendo il divario con l'addestramento supervisionato con risposte o preferenze corrette, e che combinare ScPO con l'apprendimento supervisionato standard migliora ulteriormente i risultati. Su ZebraLogic, ScPO ottimizza Llama-3 8B per essere superiore a Llama-3 70B, Gemma-2 27B e Claude-3 Haiku.

English

Self-alignment, whereby models learn to improve themselves without human annotation, is a rapidly growing research area. However, existing techniques often fail to improve complex reasoning tasks due to the difficulty of assigning correct rewards. An orthogonal approach that is known to improve correctness is self-consistency, a method applied at inference time based on multiple sampling in order to find the most consistent answer. In this work, we extend the self-consistency concept to help train models. We thus introduce self-consistency preference optimization (ScPO), which iteratively trains consistent answers to be preferred over inconsistent ones on unsupervised new problems. We show ScPO leads to large improvements over conventional reward model training on reasoning tasks such as GSM8K and MATH, closing the gap with supervised training with gold answers or preferences, and that combining ScPO with standard supervised learning improves results even further. On ZebraLogic, ScPO finetunes Llama-3 8B to be superior to Llama-3 70B, Gemma-2 27B, and Claude-3 Haiku.

Ottimizzazione delle Preferenze di Auto-Consistenza

Self-Consistency Preference Optimization

Abstract

Summary

Support