Décodage adaptatif via optimisation des préférences latentes
Adaptive Decoding via Latent Preference Optimization
November 14, 2024
Auteurs: Shehzaad Dhuliawala, Ilia Kulikov, Ping Yu, Asli Celikyilmaz, Jason Weston, Sainbayar Sukhbaatar, Jack Lanchantin
cs.AI
Résumé
Pendant le décodage du modèle de langage, il est connu que l'utilisation d'un échantillonnage à température plus élevée donne des réponses plus créatives, tandis que des températures plus basses sont plus factuellement précises. Cependant, de tels modèles sont couramment appliqués à des instructions générales, impliquant à la fois des tâches créatives et factuelles, en utilisant une température fixe unique pour tous les exemples et tokens. Dans ce travail, nous introduisons le Décodage Adaptatif, une couche ajoutée au modèle pour sélectionner dynamiquement la température d'échantillonnage au moment de l'inférence, au niveau du token ou de l'exemple, afin d'optimiser les performances. Pour apprendre ses paramètres, nous introduisons l'Optimisation des Préférences Latentes (OPL), une approche générale pour entraîner des variables latentes discrètes telles que les choix de température. Notre méthode surpasse toutes les températures de décodage fixes à travers une gamme de tâches nécessitant des températures différentes, y compris UltraFeedback, Rédaction de Récits Créatifs et GSM8K.
English
During language model decoding, it is known that using higher temperature
sampling gives more creative responses, while lower temperatures are more
factually accurate. However, such models are commonly applied to general
instruction following, which involves both creative and fact seeking tasks,
using a single fixed temperature across all examples and tokens. In this work,
we introduce Adaptive Decoding, a layer added to the model to select the
sampling temperature dynamically at inference time, at either the token or
example level, in order to optimize performance. To learn its parameters we
introduce Latent Preference Optimization (LPO) a general approach to train
discrete latent variables such as choices of temperature. Our method
outperforms all fixed decoding temperatures across a range of tasks that
require different temperatures, including UltraFeedback, Creative Story
Writing, and GSM8K.Summary
AI-Generated Summary