Modello provvisorio sa quando fermarsi: una politica di lunghezza di autoverifica per la decodifica speculativa

Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

November 27, 2024
Autori: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
cs.AI

Abstract

Il Decodice Speculativo (SD) è diventato una tecnica importante per accelerare la velocità di inferenza dei grandi modelli linguistici. I metodi SD convenzionali utilizzano una lunghezza di bozza fissa, che non tiene conto della difficoltà di generazione dei token tra compiti diversi. Pertanto, in questo articolo, affrontiamo tale problematica e presentiamo SVIP - una politica dinamica di lunghezza di bozza consapevole della difficoltà per i sistemi di decodifica speculativa. Basandoci su un limite inferiore teorico del tasso di accettazione dei token di bozza e sulla sua approssimazione al tempo di inferenza, SVIP determina in modo adattivo le lunghezze delle sequenze di bozza in base all'entropia di ciascuna distribuzione di token di bozza. I risultati sperimentali su benchmark e framework SD di rilievo dimostrano le prestazioni superiori di SVIP, ottenendo fino al 20\% di accelerazione del tempo di esecuzione su SpecBench rispetto ai metodi SD di base e il 60\% di accelerazione su MT-Bench per la generazione di testi lunghi fino a 8K token. Inoltre, SVIP è completamente privo di addestramento e compatibile con qualsiasi metodo SD esistente che genera token di bozza in modo autoregressivo. I risultati sperimentali mostrano inoltre che SVIP fornisce un miglioramento costante del tempo di esecuzione in aggiunta a GliDe & CaPE ed EAGLE-2.
English
Speculative Decoding (SD) has become an important technique in accelerating the inference speed of large language models. Conventional SD methods employ a fixed draft length, which ignores the token generation difficulty across tasks. Consequently, in this paper, we address such an issue and introduce SVIP - a difficulty-aware dynamic draft length policy for speculative decoding systems. Based on a theoretical lower bound of draft token acceptance rate and its inference-time approximation, SVIP adaptively determines the lengths of draft sequences based on the entropy of each draft token distribution. Experimental results on mainstream SD benchmarks and frameworks demonstrate the superior performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up to 8K tokens. Moreover, SVIP is totally training-free and compatible with any existing SD methods that generate draft tokens autoregressively. Experimental results also show that SVIP yields consistent walltime improvement on top of GliDe & CaPE and EAGLE-2.

Summary

AI-Generated Summary

PDF62November 28, 2024