Ottimizzazione delle Preferenze di Auto-Consistenza
Self-Consistency Preference Optimization
November 6, 2024
Autori: Archiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu
cs.AI
Abstract
L'auto-allineamento, mediante il quale i modelli imparano a migliorarsi senza annotazioni umane, è un'area di ricerca in rapida crescita. Tuttavia, le tecniche esistenti spesso falliscono nel migliorare compiti di ragionamento complessi a causa della difficoltà nell'assegnare ricompense corrette. Un approccio ortogonale noto per migliorare la correttezza è l'auto-coerenza, un metodo applicato al momento dell'infenza basato su campionamenti multipli per trovare la risposta più coerente. In questo lavoro, estendiamo il concetto di auto-coerenza per aiutare ad addestrare i modelli. Introduciamo quindi l'ottimizzazione delle preferenze di auto-coerenza (ScPO), che addestra iterativamente risposte coerenti a essere preferite rispetto a quelle incoerenti su nuovi problemi non supervisionati. Mostrando che ScPO porta a miglioramenti significativi rispetto all'addestramento del modello con ricompense convenzionali in compiti di ragionamento come GSM8K e MATH, riducendo il divario con l'addestramento supervisionato con risposte o preferenze corrette, e che combinare ScPO con l'apprendimento supervisionato standard migliora ulteriormente i risultati. Su ZebraLogic, ScPO ottimizza Llama-3 8B per essere superiore a Llama-3 70B, Gemma-2 27B e Claude-3 Haiku.
English
Self-alignment, whereby models learn to improve themselves without human
annotation, is a rapidly growing research area. However, existing techniques
often fail to improve complex reasoning tasks due to the difficulty of
assigning correct rewards. An orthogonal approach that is known to improve
correctness is self-consistency, a method applied at inference time based on
multiple sampling in order to find the most consistent answer. In this work, we
extend the self-consistency concept to help train models. We thus introduce
self-consistency preference optimization (ScPO), which iteratively trains
consistent answers to be preferred over inconsistent ones on unsupervised new
problems. We show ScPO leads to large improvements over conventional reward
model training on reasoning tasks such as GSM8K and MATH, closing the gap with
supervised training with gold answers or preferences, and that combining ScPO
with standard supervised learning improves results even further. On ZebraLogic,
ScPO finetunes Llama-3 8B to be superior to Llama-3 70B, Gemma-2 27B, and
Claude-3 Haiku.Summary
AI-Generated Summary