Top-nσ: Nicht alle Logits werden benötigt.

Zusammenfassung

Große Sprachmodelle (LLMs) verwenden in der Regel gierige Dekodierung oder Niedrigtemperatur-Sampling für Schlussfolgerungsaufgaben, was einen wahrgenommenen Kompromiss zwischen Vielfalt und Genauigkeit widerspiegelt. Wir fordern diese Konvention heraus, indem wir top-nsigma einführen, eine neuartige Sampling-Methode, die direkt auf den Pre-Softmax-Logits basiert und einen statistischen Schwellenwert nutzt. Unser Schlüsselerkenntnis ist, dass die Logits sich natürlich in einen gaußverteilten rauschigen Bereich und einen deutlich informativen Bereich aufteilen, was eine effiziente Token-Filterung ohne komplexe Wahrscheinlichkeitsmanipulationen ermöglicht. Im Gegensatz zu bestehenden Methoden (z. B. top-p, min-p), die unbeabsichtigt mehr Rausch-Tokens bei höheren Temperaturen einschließen, behält top-nsigma einen stabilen Sampling-Raum unabhängig von der Temperaturskalierung bei. Wir bieten auch eine theoretische Analyse von top-nsigma an, um sein Verhalten besser zu verstehen. Die umfangreichen experimentellen Ergebnisse über vier auf Schlussfolgerung ausgerichtete Datensätze zeigen, dass unsere Methode nicht nur bestehende Sampling-Ansätze übertrifft, sondern auch die gierige Dekodierung übertrifft, während sie selbst bei hohen Temperaturen eine konsistente Leistung beibehält.

English

Large language models (LLMs) typically employ greedy decoding or low-temperature sampling for reasoning tasks, reflecting a perceived trade-off between diversity and accuracy. We challenge this convention by introducing top-nsigma, a novel sampling method that operates directly on pre-softmax logits by leveraging a statistical threshold. Our key insight is that logits naturally separate into a Gaussian-distributed noisy region and a distinct informative region, enabling efficient token filtering without complex probability manipulations. Unlike existing methods (e.g., top-p, min-p) that inadvertently include more noise tokens at higher temperatures, top-nsigma maintains a stable sampling space regardless of temperature scaling. We also provide a theoretical analysis of top-nsigma to better understand its behavior. The extensive experimental results across four reasoning-focused datasets demonstrate that our method not only outperforms existing sampling approaches but also surpasses greedy decoding, while maintaining consistent performance even at high temperatures.

Top-nσ: Nicht alle Logits werden benötigt.

Top-nσ: Not All Logits Are You Need

Zusammenfassung

Summary

Ausgewählte Artikel

Die Ära der 1-Bit-LLMs: Alle großen Sprachmodelle sind in 1,58 Bits.
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Qwen2.5 Technischer Bericht
Qwen2.5 Technical Report

Support

Zusammenfassung

Summary

Ausgewählte Artikel

Die Ära der 1-Bit-LLMs: Alle großen Sprachmodelle sind in 1,58 Bits.The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch Reinforcement LearningDeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Qwen2.5 Technischer BerichtQwen2.5 Technical Report

Die Ära der 1-Bit-LLMs: Alle großen Sprachmodelle sind in 1,58 Bits.
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

DeepSeek-R1: Anreizung der Fähigkeit zur Schlussfolgerung in LLMs durch Reinforcement Learning
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Qwen2.5 Technischer Bericht
Qwen2.5 Technical Report