Decodifica adattiva tramite ottimizzazione delle preferenze latenti
Adaptive Decoding via Latent Preference Optimization
November 14, 2024
Autori: Shehzaad Dhuliawala, Ilia Kulikov, Ping Yu, Asli Celikyilmaz, Jason Weston, Sainbayar Sukhbaatar, Jack Lanchantin
cs.AI
Abstract
Durante il decoding del modello linguistico, è noto che l'utilizzo di una temperatura più alta per il campionamento produce risposte più creative, mentre temperature più basse sono più accurate dal punto di vista fattuale. Tuttavia, tali modelli vengono comunemente applicati all'insegnamento generale, che coinvolge compiti sia creativi che di ricerca di fatti, utilizzando una singola temperatura fissa per tutti gli esempi e i token. In questo lavoro, presentiamo il Decoding Adattivo, uno strato aggiunto al modello per selezionare dinamicamente la temperatura di campionamento al momento dell'inferenza, a livello di token o di esempio, al fine di ottimizzare le prestazioni. Per apprendere i suoi parametri, introduciamo l'ottimizzazione delle Preferenze Latenti (LPO), un approccio generale per addestrare variabili latenti discrete come le scelte della temperatura. Il nostro metodo supera tutte le temperature di decoding fisse in una serie di compiti che richiedono temperature diverse, tra cui UltraFeedback, Scrittura di Storie Creative e GSM8K.
English
During language model decoding, it is known that using higher temperature
sampling gives more creative responses, while lower temperatures are more
factually accurate. However, such models are commonly applied to general
instruction following, which involves both creative and fact seeking tasks,
using a single fixed temperature across all examples and tokens. In this work,
we introduce Adaptive Decoding, a layer added to the model to select the
sampling temperature dynamically at inference time, at either the token or
example level, in order to optimize performance. To learn its parameters we
introduce Latent Preference Optimization (LPO) a general approach to train
discrete latent variables such as choices of temperature. Our method
outperforms all fixed decoding temperatures across a range of tasks that
require different temperatures, including UltraFeedback, Creative Story
Writing, and GSM8K.Summary
AI-Generated Summary