Top-nσ: Niet alle logaritmes die je nodig hebt
Top-nσ: Not All Logits Are You Need
November 12, 2024
Auteurs: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) maken doorgaans gebruik van hebzuchtig decoderen of lage-temperatuursteekproeven voor redeneertaken, wat een waargenomen afweging weerspiegelt tussen diversiteit en nauwkeurigheid. Wij dagen deze conventie uit door top-nsigma te introduceren, een nieuw steekproefmethode die rechtstreeks op pre-softmax logaritmes werkt door gebruik te maken van een statistische drempel. Ons belangrijkste inzicht is dat logaritmes van nature opsplitsen in een Gaussisch verdeeld ruisachtig gebied en een afzonderlijk informatief gebied, waardoor efficiënte tokenfiltering mogelijk is zonder complexe waarschijnlijkheidsmanipulaties. In tegenstelling tot bestaande methoden (bijv. top-p, min-p) die onbedoeld meer ruis-tokens opnemen bij hogere temperaturen, handhaaft top-nsigma een stabiele steekproefruimte ongeacht de temperatuurschaal. We bieden ook een theoretische analyse van top-nsigma om zijn gedrag beter te begrijpen. De uitgebreide experimentele resultaten over vier op redeneren gerichte datasets tonen aan dat onze methode niet alleen bestaande steekproefbenaderingen overtreft, maar ook hebzuchtig decoderen overstijgt, terwijl het consistente prestaties behoudt, zelfs bij hoge temperaturen.
English
Large language models (LLMs) typically employ greedy decoding or
low-temperature sampling for reasoning tasks, reflecting a perceived trade-off
between diversity and accuracy. We challenge this convention by introducing
top-nsigma, a novel sampling method that operates directly on pre-softmax
logits by leveraging a statistical threshold. Our key insight is that logits
naturally separate into a Gaussian-distributed noisy region and a distinct
informative region, enabling efficient token filtering without complex
probability manipulations. Unlike existing methods (e.g., top-p, min-p)
that inadvertently include more noise tokens at higher temperatures,
top-nsigma maintains a stable sampling space regardless of temperature
scaling. We also provide a theoretical analysis of top-nsigma to better
understand its behavior. The extensive experimental results across four
reasoning-focused datasets demonstrate that our method not only outperforms
existing sampling approaches but also surpasses greedy decoding, while
maintaining consistent performance even at high temperatures.Summary
AI-Generated Summary