Adaptives Decodieren durch latente Präferenzoptimierung
Adaptive Decoding via Latent Preference Optimization
November 14, 2024
Autoren: Shehzaad Dhuliawala, Ilia Kulikov, Ping Yu, Asli Celikyilmaz, Jason Weston, Sainbayar Sukhbaatar, Jack Lanchantin
cs.AI
Zusammenfassung
Während des Dekodierens von Sprachmodellen ist bekannt, dass die Verwendung einer höheren Temperatur beim Sampling zu kreativeren Antworten führt, während niedrigere Temperaturen faktisch genauer sind. Allerdings werden solche Modelle üblicherweise auf allgemeine Anweisungsverfolgung angewendet, die sowohl kreative als auch faktensuchende Aufgaben umfasst, wobei eine einzige feste Temperatur für alle Beispiele und Tokens verwendet wird. In dieser Arbeit stellen wir das Adaptive Decoding vor, eine Schicht, die dem Modell hinzugefügt wird, um die Sampling-Temperatur zur Laufzeit dynamisch auszuwählen, entweder auf Token- oder Beispielebene, um die Leistung zu optimieren. Um seine Parameter zu erlernen, führen wir die Latent Preference Optimization (LPO) ein, einen allgemeinen Ansatz zum Training diskreter latenten Variablen wie der Wahl der Temperatur. Unsere Methode übertrifft alle festen Dekodierungstemperaturen über eine Reihe von Aufgaben, die unterschiedliche Temperaturen erfordern, einschließlich UltraFeedback, kreatives Geschichtenschreiben und GSM8K.
English
During language model decoding, it is known that using higher temperature
sampling gives more creative responses, while lower temperatures are more
factually accurate. However, such models are commonly applied to general
instruction following, which involves both creative and fact seeking tasks,
using a single fixed temperature across all examples and tokens. In this work,
we introduce Adaptive Decoding, a layer added to the model to select the
sampling temperature dynamically at inference time, at either the token or
example level, in order to optimize performance. To learn its parameters we
introduce Latent Preference Optimization (LPO) a general approach to train
discrete latent variables such as choices of temperature. Our method
outperforms all fixed decoding temperatures across a range of tasks that
require different temperatures, including UltraFeedback, Creative Story
Writing, and GSM8K.Summary
AI-Generated Summary