상위-nσ: 당신이 필요한 것은 모든 로짓이 아닙니다.

Top-nσ: Not All Logits Are You Need

November 12, 2024
저자: Chenxia Tang, Jianchun Liu, Hongli Xu, Liusheng Huang
cs.AI

초록

대형 언어 모델 (LLMs)은 일반적으로 탐욕적 디코딩 또는 낮은 온도 샘플링을 사용하여 추론 작업에 대응하며, 다양성과 정확도 사이의 인식된 트레이드 오프를 반영합니다. 우리는 이 관행에 도전하여 통계적 임계값을 활용하여 소프트맥스 이전 로짓에 직접 작용하는 새로운 샘플링 방법인 top-nsigma를 소개함으로써 이를 도전합니다. 우리의 주요 통찰력은 로짓이 가우시안 분포의 잡음이 많은 영역과 명확한 정보를 제공하는 영역으로 자연스럽게 분리되어 복잡한 확률 조작 없이도 효율적인 토큰 필터링이 가능하다는 것입니다. 기존 방법 (예: top-p, min-p)과 달리 top-nsigma는 온도 스케일링과 관계없이 안정적인 샘플링 공간을 유지하는 반면, 더 높은 온도에서 더 많은 잡음 토큰을 부수로 포함하는 문제가 있는 다른 방법들과는 달리 안정적인 샘플링 공간을 유지합니다. 또한 top-nsigma의 이론적 분석을 제공하여 그 행동을 더 잘 이해할 수 있도록 합니다. 추론에 초점을 맞춘 네 가지 데이터셋을 횡적으로 실험한 결과는, 우리의 방법이 기존 샘플링 접근 방식을 능가할 뿐만 아니라 탐욕적 디코딩을 뛰어넘는 것을 보여주며, 높은 온도에서도 일관된 성능을 유지한다는 것을 입증합니다.
English
Large language models (LLMs) typically employ greedy decoding or low-temperature sampling for reasoning tasks, reflecting a perceived trade-off between diversity and accuracy. We challenge this convention by introducing top-nsigma, a novel sampling method that operates directly on pre-softmax logits by leveraging a statistical threshold. Our key insight is that logits naturally separate into a Gaussian-distributed noisy region and a distinct informative region, enabling efficient token filtering without complex probability manipulations. Unlike existing methods (e.g., top-p, min-p) that inadvertently include more noise tokens at higher temperatures, top-nsigma maintains a stable sampling space regardless of temperature scaling. We also provide a theoretical analysis of top-nsigma to better understand its behavior. The extensive experimental results across four reasoning-focused datasets demonstrate that our method not only outperforms existing sampling approaches but also surpasses greedy decoding, while maintaining consistent performance even at high temperatures.

Summary

AI-Generated Summary

PDF154November 19, 2024