Top-nσ : Tous les logiciels ne sont pas nécessaires.

Top-nσ: Not All Logits Are You Need

November 12, 2024
Auteurs: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
cs.AI

Résumé

Les grands modèles de langage (LLM) utilisent généralement un décodage glouton ou un échantillonnage à basse température pour les tâches de raisonnement, reflétant un compromis perçu entre la diversité et la précision. Nous remettons en question cette convention en introduisant top-nsigma, une nouvelle méthode d'échantillonnage qui opère directement sur les logits pré-softmax en exploitant un seuil statistique. Notre insight clé est que les logits se séparent naturellement en une région bruyante distribuée selon une loi normale et une région informative distincte, permettant un filtrage efficace des jetons sans manipulations complexes de probabilités. Contrairement aux méthodes existantes (par ex. top-p, min-p) qui incluent involontairement plus de jetons de bruit à des températures plus élevées, top-nsigma maintient un espace d'échantillonnage stable indépendamment de l'échelle de température. Nous fournissons également une analyse théorique de top-nsigma pour mieux comprendre son comportement. Les résultats expérimentaux approfondis sur quatre ensembles de données axés sur le raisonnement démontrent que notre méthode surpasse non seulement les approches d'échantillonnage existantes, mais dépasse également le décodage glouton, tout en maintenant des performances cohérentes même à des températures élevées.
English
Large language models (LLMs) typically employ greedy decoding or low-temperature sampling for reasoning tasks, reflecting a perceived trade-off between diversity and accuracy. We challenge this convention by introducing top-nsigma, a novel sampling method that operates directly on pre-softmax logits by leveraging a statistical threshold. Our key insight is that logits naturally separate into a Gaussian-distributed noisy region and a distinct informative region, enabling efficient token filtering without complex probability manipulations. Unlike existing methods (e.g., top-p, min-p) that inadvertently include more noise tokens at higher temperatures, top-nsigma maintains a stable sampling space regardless of temperature scaling. We also provide a theoretical analysis of top-nsigma to better understand its behavior. The extensive experimental results across four reasoning-focused datasets demonstrate that our method not only outperforms existing sampling approaches but also surpasses greedy decoding, while maintaining consistent performance even at high temperatures.

Summary

AI-Generated Summary

PDF154November 19, 2024