Top-nσ: Nicht alle Logits werden benötigt.
Top-nσ: Not All Logits Are You Need
November 12, 2024
Autoren: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) verwenden in der Regel gierige Dekodierung oder Niedrigtemperatur-Sampling für Schlussfolgerungsaufgaben, was einen wahrgenommenen Kompromiss zwischen Vielfalt und Genauigkeit widerspiegelt. Wir fordern diese Konvention heraus, indem wir top-nsigma einführen, eine neuartige Sampling-Methode, die direkt auf den Pre-Softmax-Logits basiert und einen statistischen Schwellenwert nutzt. Unser Schlüsselerkenntnis ist, dass die Logits sich natürlich in einen gaußverteilten rauschigen Bereich und einen deutlich informativen Bereich aufteilen, was eine effiziente Token-Filterung ohne komplexe Wahrscheinlichkeitsmanipulationen ermöglicht. Im Gegensatz zu bestehenden Methoden (z. B. top-p, min-p), die unbeabsichtigt mehr Rausch-Tokens bei höheren Temperaturen einschließen, behält top-nsigma einen stabilen Sampling-Raum unabhängig von der Temperaturskalierung bei. Wir bieten auch eine theoretische Analyse von top-nsigma an, um sein Verhalten besser zu verstehen. Die umfangreichen experimentellen Ergebnisse über vier auf Schlussfolgerung ausgerichtete Datensätze zeigen, dass unsere Methode nicht nur bestehende Sampling-Ansätze übertrifft, sondern auch die gierige Dekodierung übertrifft, während sie selbst bei hohen Temperaturen eine konsistente Leistung beibehält.
English
Large language models (LLMs) typically employ greedy decoding or
low-temperature sampling for reasoning tasks, reflecting a perceived trade-off
between diversity and accuracy. We challenge this convention by introducing
top-nsigma, a novel sampling method that operates directly on pre-softmax
logits by leveraging a statistical threshold. Our key insight is that logits
naturally separate into a Gaussian-distributed noisy region and a distinct
informative region, enabling efficient token filtering without complex
probability manipulations. Unlike existing methods (e.g., top-p, min-p)
that inadvertently include more noise tokens at higher temperatures,
top-nsigma maintains a stable sampling space regardless of temperature
scaling. We also provide a theoretical analysis of top-nsigma to better
understand its behavior. The extensive experimental results across four
reasoning-focused datasets demonstrate that our method not only outperforms
existing sampling approaches but also surpasses greedy decoding, while
maintaining consistent performance even at high temperatures.Summary
AI-Generated Summary