Optimalisatie van Voorkeur voor Zelf-Consistentie
Self-Consistency Preference Optimization
November 6, 2024
Auteurs: Archiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu
cs.AI
Samenvatting
Zelfuitlijning, waarbij modellen leren zichzelf te verbeteren zonder menselijke annotatie, is een snelgroeiend onderzoeksgebied. Bestaande technieken falen echter vaak om complexe redeneertaken te verbeteren vanwege de moeilijkheid om juiste beloningen toe te wijzen. Een orthogonale benadering die bekend staat om het verbeteren van juistheid is zelfconsistentie, een methode die wordt toegepast op inferentietijd op basis van meerdere steekproeven om het meest consistente antwoord te vinden. In dit werk breiden we het concept van zelfconsistentie uit om modellen te helpen trainen. We introduceren daarom zelfconsistentievoorkeursoptimalisatie (ScPO), die iteratief traint om consistente antwoorden te verkiezen boven inconsistente op ongesuperviseerde nieuwe problemen. We tonen aan dat ScPO leidt tot grote verbeteringen ten opzichte van conventionele modeltraining met beloningen op redeneertaken zoals GSM8K en MATH, waarmee het gat met supervisietraining met gouden antwoorden of voorkeuren wordt gedicht, en dat het combineren van ScPO met standaard supervisie het resultaat nog verder verbetert. Op ZebraLogic finetunet ScPO Llama-3 8B om superieur te zijn aan Llama-3 70B, Gemma-2 27B en Claude-3 Haiku.
English
Self-alignment, whereby models learn to improve themselves without human
annotation, is a rapidly growing research area. However, existing techniques
often fail to improve complex reasoning tasks due to the difficulty of
assigning correct rewards. An orthogonal approach that is known to improve
correctness is self-consistency, a method applied at inference time based on
multiple sampling in order to find the most consistent answer. In this work, we
extend the self-consistency concept to help train models. We thus introduce
self-consistency preference optimization (ScPO), which iteratively trains
consistent answers to be preferred over inconsistent ones on unsupervised new
problems. We show ScPO leads to large improvements over conventional reward
model training on reasoning tasks such as GSM8K and MATH, closing the gap with
supervised training with gold answers or preferences, and that combining ScPO
with standard supervised learning improves results even further. On ZebraLogic,
ScPO finetunes Llama-3 8B to be superior to Llama-3 70B, Gemma-2 27B, and
Claude-3 Haiku.Summary
AI-Generated Summary