Top-nσ : Tous les logiciels ne sont pas nécessaires.
Top-nσ: Not All Logits Are You Need
November 12, 2024
Auteurs: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
cs.AI
Résumé
Les grands modèles de langage (LLM) utilisent généralement un décodage glouton ou un échantillonnage à basse température pour les tâches de raisonnement, reflétant un compromis perçu entre la diversité et la précision. Nous remettons en question cette convention en introduisant top-nsigma, une nouvelle méthode d'échantillonnage qui opère directement sur les logits pré-softmax en exploitant un seuil statistique. Notre insight clé est que les logits se séparent naturellement en une région bruyante distribuée selon une loi normale et une région informative distincte, permettant un filtrage efficace des jetons sans manipulations complexes de probabilités. Contrairement aux méthodes existantes (par ex. top-p, min-p) qui incluent involontairement plus de jetons de bruit à des températures plus élevées, top-nsigma maintient un espace d'échantillonnage stable indépendamment de l'échelle de température. Nous fournissons également une analyse théorique de top-nsigma pour mieux comprendre son comportement. Les résultats expérimentaux approfondis sur quatre ensembles de données axés sur le raisonnement démontrent que notre méthode surpasse non seulement les approches d'échantillonnage existantes, mais dépasse également le décodage glouton, tout en maintenant des performances cohérentes même à des températures élevées.
English
Large language models (LLMs) typically employ greedy decoding or
low-temperature sampling for reasoning tasks, reflecting a perceived trade-off
between diversity and accuracy. We challenge this convention by introducing
top-nsigma, a novel sampling method that operates directly on pre-softmax
logits by leveraging a statistical threshold. Our key insight is that logits
naturally separate into a Gaussian-distributed noisy region and a distinct
informative region, enabling efficient token filtering without complex
probability manipulations. Unlike existing methods (e.g., top-p, min-p)
that inadvertently include more noise tokens at higher temperatures,
top-nsigma maintains a stable sampling space regardless of temperature
scaling. We also provide a theoretical analysis of top-nsigma to better
understand its behavior. The extensive experimental results across four
reasoning-focused datasets demonstrate that our method not only outperforms
existing sampling approaches but also surpasses greedy decoding, while
maintaining consistent performance even at high temperatures.Summary
AI-Generated Summary