Top-nσ: Non tutti i logit di cui hai bisogno

Abstract

I modelli linguistici di grandi dimensioni (LLM) di solito utilizzano decodifica greedy o campionamento a bassa temperatura per compiti di ragionamento, riflettendo un presunto compromesso tra diversità e accuratezza. Sfidiamo questa convenzione introducendo top-nsigma, un nuovo metodo di campionamento che opera direttamente sui logit pre-softmax sfruttando una soglia statistica. La nostra intuizione chiave è che i logit si separano naturalmente in una regione rumorosa distribuita gaussianamente e una regione informativa distinta, consentendo un efficiente filtraggio dei token senza manipolazioni complesse della probabilità. A differenza dei metodi esistenti (ad esempio, top-p, min-p) che includono involontariamente più token rumorosi a temperature più alte, top-nsigma mantiene uno spazio di campionamento stabile indipendentemente dalla scala della temperatura. Forniamo anche un'analisi teorica di top-nsigma per comprendere meglio il suo comportamento. I risultati sperimentali estensivi su quattro set di dati focalizzati sul ragionamento dimostrano che il nostro metodo non solo supera gli approcci di campionamento esistenti ma supera anche la decodifica greedy, mantenendo prestazioni consistenti anche a temperature elevate.

English

Large language models (LLMs) typically employ greedy decoding or low-temperature sampling for reasoning tasks, reflecting a perceived trade-off between diversity and accuracy. We challenge this convention by introducing top-nsigma, a novel sampling method that operates directly on pre-softmax logits by leveraging a statistical threshold. Our key insight is that logits naturally separate into a Gaussian-distributed noisy region and a distinct informative region, enabling efficient token filtering without complex probability manipulations. Unlike existing methods (e.g., top-p, min-p) that inadvertently include more noise tokens at higher temperatures, top-nsigma maintains a stable sampling space regardless of temperature scaling. We also provide a theoretical analysis of top-nsigma to better understand its behavior. The extensive experimental results across four reasoning-focused datasets demonstrate that our method not only outperforms existing sampling approaches but also surpasses greedy decoding, while maintaining consistent performance even at high temperatures.

Top-nσ: Non tutti i logit di cui hai bisogno

Top-nσ: Not All Logits Are You Need

Abstract

Support