Top-nσ: Non tutti i logit di cui hai bisogno
Top-nσ: Not All Logits Are You Need
November 12, 2024
Autori: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) di solito utilizzano decodifica greedy o campionamento a bassa temperatura per compiti di ragionamento, riflettendo un presunto compromesso tra diversità e accuratezza. Sfidiamo questa convenzione introducendo top-nsigma, un nuovo metodo di campionamento che opera direttamente sui logit pre-softmax sfruttando una soglia statistica. La nostra intuizione chiave è che i logit si separano naturalmente in una regione rumorosa distribuita gaussianamente e una regione informativa distinta, consentendo un efficiente filtraggio dei token senza manipolazioni complesse della probabilità. A differenza dei metodi esistenti (ad esempio, top-p, min-p) che includono involontariamente più token rumorosi a temperature più alte, top-nsigma mantiene uno spazio di campionamento stabile indipendentemente dalla scala della temperatura. Forniamo anche un'analisi teorica di top-nsigma per comprendere meglio il suo comportamento. I risultati sperimentali estensivi su quattro set di dati focalizzati sul ragionamento dimostrano che il nostro metodo non solo supera gli approcci di campionamento esistenti ma supera anche la decodifica greedy, mantenendo prestazioni consistenti anche a temperature elevate.
English
Large language models (LLMs) typically employ greedy decoding or
low-temperature sampling for reasoning tasks, reflecting a perceived trade-off
between diversity and accuracy. We challenge this convention by introducing
top-nsigma, a novel sampling method that operates directly on pre-softmax
logits by leveraging a statistical threshold. Our key insight is that logits
naturally separate into a Gaussian-distributed noisy region and a distinct
informative region, enabling efficient token filtering without complex
probability manipulations. Unlike existing methods (e.g., top-p, min-p)
that inadvertently include more noise tokens at higher temperatures,
top-nsigma maintains a stable sampling space regardless of temperature
scaling. We also provide a theoretical analysis of top-nsigma to better
understand its behavior. The extensive experimental results across four
reasoning-focused datasets demonstrate that our method not only outperforms
existing sampling approaches but also surpasses greedy decoding, while
maintaining consistent performance even at high temperatures.Summary
AI-Generated Summary