Optimalisatie van Voorkeur voor Zelf-Consistentie

Samenvatting

Zelfuitlijning, waarbij modellen leren zichzelf te verbeteren zonder menselijke annotatie, is een snelgroeiend onderzoeksgebied. Bestaande technieken falen echter vaak om complexe redeneertaken te verbeteren vanwege de moeilijkheid om juiste beloningen toe te wijzen. Een orthogonale benadering die bekend staat om het verbeteren van juistheid is zelfconsistentie, een methode die wordt toegepast op inferentietijd op basis van meerdere steekproeven om het meest consistente antwoord te vinden. In dit werk breiden we het concept van zelfconsistentie uit om modellen te helpen trainen. We introduceren daarom zelfconsistentievoorkeursoptimalisatie (ScPO), die iteratief traint om consistente antwoorden te verkiezen boven inconsistente op ongesuperviseerde nieuwe problemen. We tonen aan dat ScPO leidt tot grote verbeteringen ten opzichte van conventionele modeltraining met beloningen op redeneertaken zoals GSM8K en MATH, waarmee het gat met supervisietraining met gouden antwoorden of voorkeuren wordt gedicht, en dat het combineren van ScPO met standaard supervisie het resultaat nog verder verbetert. Op ZebraLogic finetunet ScPO Llama-3 8B om superieur te zijn aan Llama-3 70B, Gemma-2 27B en Claude-3 Haiku.

English

Self-alignment, whereby models learn to improve themselves without human annotation, is a rapidly growing research area. However, existing techniques often fail to improve complex reasoning tasks due to the difficulty of assigning correct rewards. An orthogonal approach that is known to improve correctness is self-consistency, a method applied at inference time based on multiple sampling in order to find the most consistent answer. In this work, we extend the self-consistency concept to help train models. We thus introduce self-consistency preference optimization (ScPO), which iteratively trains consistent answers to be preferred over inconsistent ones on unsupervised new problems. We show ScPO leads to large improvements over conventional reward model training on reasoning tasks such as GSM8K and MATH, closing the gap with supervised training with gold answers or preferences, and that combining ScPO with standard supervised learning improves results even further. On ZebraLogic, ScPO finetunes Llama-3 8B to be superior to Llama-3 70B, Gemma-2 27B, and Claude-3 Haiku.

Optimalisatie van Voorkeur voor Zelf-Consistentie

Self-Consistency Preference Optimization

Samenvatting

Support