Top-nσ: Nicht alle Logits werden benötigt.

Top-nσ: Not All Logits Are You Need

November 12, 2024
Autoren: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) verwenden in der Regel gierige Dekodierung oder Niedrigtemperatur-Sampling für Schlussfolgerungsaufgaben, was einen wahrgenommenen Kompromiss zwischen Vielfalt und Genauigkeit widerspiegelt. Wir fordern diese Konvention heraus, indem wir top-nsigma einführen, eine neuartige Sampling-Methode, die direkt auf den Pre-Softmax-Logits basiert und einen statistischen Schwellenwert nutzt. Unser Schlüsselerkenntnis ist, dass die Logits sich natürlich in einen gaußverteilten rauschigen Bereich und einen deutlich informativen Bereich aufteilen, was eine effiziente Token-Filterung ohne komplexe Wahrscheinlichkeitsmanipulationen ermöglicht. Im Gegensatz zu bestehenden Methoden (z. B. top-p, min-p), die unbeabsichtigt mehr Rausch-Tokens bei höheren Temperaturen einschließen, behält top-nsigma einen stabilen Sampling-Raum unabhängig von der Temperaturskalierung bei. Wir bieten auch eine theoretische Analyse von top-nsigma an, um sein Verhalten besser zu verstehen. Die umfangreichen experimentellen Ergebnisse über vier auf Schlussfolgerung ausgerichtete Datensätze zeigen, dass unsere Methode nicht nur bestehende Sampling-Ansätze übertrifft, sondern auch die gierige Dekodierung übertrifft, während sie selbst bei hohen Temperaturen eine konsistente Leistung beibehält.
English
Large language models (LLMs) typically employ greedy decoding or low-temperature sampling for reasoning tasks, reflecting a perceived trade-off between diversity and accuracy. We challenge this convention by introducing top-nsigma, a novel sampling method that operates directly on pre-softmax logits by leveraging a statistical threshold. Our key insight is that logits naturally separate into a Gaussian-distributed noisy region and a distinct informative region, enabling efficient token filtering without complex probability manipulations. Unlike existing methods (e.g., top-p, min-p) that inadvertently include more noise tokens at higher temperatures, top-nsigma maintains a stable sampling space regardless of temperature scaling. We also provide a theoretical analysis of top-nsigma to better understand its behavior. The extensive experimental results across four reasoning-focused datasets demonstrate that our method not only outperforms existing sampling approaches but also surpasses greedy decoding, while maintaining consistent performance even at high temperatures.

Summary

AI-Generated Summary

PDF154November 19, 2024