ChatPaper.aiChatPaper

초안 모델이 멈춰야 할 때를 알고 있는: 예측 디코딩을 위한 자가 검증 길이 정책

Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

November 27, 2024
저자: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
cs.AI

초록

추론 속도를 가속화하는 데 중요한 기술로 자리 잡은 추측 디코딩(SD). 기존의 SD 방법은 작업 간 토큰 생성 난이도를 무시하는 고정된 초안 길이를 사용합니다. 따라서 본 논문에서는 이러한 문제를 다루고 SVIP를 소개합니다. SVIP는 추측 디코딩 시스템을 위한 난이도 인식 동적 초안 길이 정책으로, 초안 토큰 수용률의 이론적 하한과 추론 시간 근사치에 기반하여 각 초안 토큰 분포의 엔트로피에 따라 초안 시퀀스의 길이를 적응적으로 결정합니다. 주요 SD 벤치마크 및 프레임워크에서의 실험 결과는 SVIP의 우수한 성능을 입증하며, 기본 SD 방법 대비 SpecBench에서 최대 20%의 월타임 가속 및 MT-Bench에서 최대 8K 토큰까지의 장문 생성에 대해 60%의 가속을 달성합니다. 더불어 SVIP는 완전히 학습이 필요 없으며, 초안 토큰을 자기회귀적으로 생성하는 기존의 모든 SD 방법과 호환됩니다. 실험 결과는 SVIP가 GliDe & CaPE 및 EAGLE-2에 대한 일관된 월타임 개선을 제공함을 보여줍니다.
English
Speculative Decoding (SD) has become an important technique in accelerating the inference speed of large language models. Conventional SD methods employ a fixed draft length, which ignores the token generation difficulty across tasks. Consequently, in this paper, we address such an issue and introduce SVIP - a difficulty-aware dynamic draft length policy for speculative decoding systems. Based on a theoretical lower bound of draft token acceptance rate and its inference-time approximation, SVIP adaptively determines the lengths of draft sequences based on the entropy of each draft token distribution. Experimental results on mainstream SD benchmarks and frameworks demonstrate the superior performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up to 8K tokens. Moreover, SVIP is totally training-free and compatible with any existing SD methods that generate draft tokens autoregressively. Experimental results also show that SVIP yields consistent walltime improvement on top of GliDe & CaPE and EAGLE-2.

Summary

AI-Generated Summary

PDF62November 28, 2024