Décodage adaptatif via optimisation des préférences latentes

Résumé

Pendant le décodage du modèle de langage, il est connu que l'utilisation d'un échantillonnage à température plus élevée donne des réponses plus créatives, tandis que des températures plus basses sont plus factuellement précises. Cependant, de tels modèles sont couramment appliqués à des instructions générales, impliquant à la fois des tâches créatives et factuelles, en utilisant une température fixe unique pour tous les exemples et tokens. Dans ce travail, nous introduisons le Décodage Adaptatif, une couche ajoutée au modèle pour sélectionner dynamiquement la température d'échantillonnage au moment de l'inférence, au niveau du token ou de l'exemple, afin d'optimiser les performances. Pour apprendre ses paramètres, nous introduisons l'Optimisation des Préférences Latentes (OPL), une approche générale pour entraîner des variables latentes discrètes telles que les choix de température. Notre méthode surpasse toutes les températures de décodage fixes à travers une gamme de tâches nécessitant des températures différentes, y compris UltraFeedback, Rédaction de Récits Créatifs et GSM8K.

English

During language model decoding, it is known that using higher temperature sampling gives more creative responses, while lower temperatures are more factually accurate. However, such models are commonly applied to general instruction following, which involves both creative and fact seeking tasks, using a single fixed temperature across all examples and tokens. In this work, we introduce Adaptive Decoding, a layer added to the model to select the sampling temperature dynamically at inference time, at either the token or example level, in order to optimize performance. To learn its parameters we introduce Latent Preference Optimization (LPO) a general approach to train discrete latent variables such as choices of temperature. Our method outperforms all fixed decoding temperatures across a range of tasks that require different temperatures, including UltraFeedback, Creative Story Writing, and GSM8K.

Décodage adaptatif via optimisation des préférences latentes

Adaptive Decoding via Latent Preference Optimization

Résumé

Summary

Support