Adaptief decoderen via latente voorkeursoptimalisatie.
Adaptive Decoding via Latent Preference Optimization
November 14, 2024
Auteurs: Shehzaad Dhuliawala, Ilia Kulikov, Ping Yu, Asli Celikyilmaz, Jason Weston, Sainbayar Sukhbaatar, Jack Lanchantin
cs.AI
Samenvatting
Tijdens het decoderen van taalmodellen is bekend dat het gebruik van een hogere temperatuur bij het samplen leidt tot meer creatieve reacties, terwijl lagere temperaturen meer feitelijk accuraat zijn. Echter, dergelijke modellen worden doorgaans toegepast op algemene instructieopvolging, wat zowel creatieve als feitelijk zoekende taken omvat, waarbij een vaste temperatuur wordt gebruikt voor alle voorbeelden en tokens. In dit werk introduceren we Adaptief Decoderen, een laag toegevoegd aan het model om dynamisch de samplings-temperatuur te selecteren tijdens inferentie, op zowel token- als voorbeeldniveau, om de prestaties te optimaliseren. Om de parameters te leren introduceren we Latente VoorkeursOptimalisatie (LVO), een algemene benadering om discrete latente variabelen zoals keuzes van temperatuur te trainen. Onze methode presteert beter dan alle vaste decodeertemperaturen over een reeks taken die verschillende temperaturen vereisen, waaronder UltraFeedback, Creatief Verhaalschrijven, en GSM8K.
English
During language model decoding, it is known that using higher temperature
sampling gives more creative responses, while lower temperatures are more
factually accurate. However, such models are commonly applied to general
instruction following, which involves both creative and fact seeking tasks,
using a single fixed temperature across all examples and tokens. In this work,
we introduce Adaptive Decoding, a layer added to the model to select the
sampling temperature dynamically at inference time, at either the token or
example level, in order to optimize performance. To learn its parameters we
introduce Latent Preference Optimization (LPO) a general approach to train
discrete latent variables such as choices of temperature. Our method
outperforms all fixed decoding temperatures across a range of tasks that
require different temperatures, including UltraFeedback, Creative Story
Writing, and GSM8K.Summary
AI-Generated Summary