От часов к минутам: без потерь ускорение генерации сверхдлинных последовательностей до 100 тысяч токенов
From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens
February 26, 2025
Авторы: Tong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng
cs.AI
Аннотация
Генерация сверхдлинных последовательностей с использованием больших языковых моделей (LLM) становится все более важной, но остается крайне трудоемкой задачей, особенно для последовательностей длиной до 100 тысяч токенов. Хотя традиционные методы спекулятивного декодирования существуют, простое расширение их пределов генерации не ускоряет процесс и может быть вредным. В ходе детального анализа мы выявили три основные проблемы, препятствующие эффективной генерации: частую перезагрузку модели, динамическое управление ключевыми значениями (KV) и повторяющуюся генерацию. Для решения этих проблем мы представляем TOKENSWIFT — новый фреймворк, разработанный для существенного ускорения процесса генерации сверхдлинных последовательностей при сохранении исходного качества целевой модели. Экспериментальные результаты показывают, что TOKENSWIFT обеспечивает ускорение более чем в 3 раза для моделей различных масштабов (1.5B, 7B, 8B, 14B) и архитектур (MHA, GQA). Это ускорение позволяет сэкономить часы времени при генерации сверхдлинных последовательностей, что делает TOKENSWIFT масштабируемым и эффективным решением для беспрецедентных длин. Код доступен по адресу https://github.com/bigai-nlco/TokenSwift.
English
Generating ultra-long sequences with large language models (LLMs) has become
increasingly crucial but remains a highly time-intensive task, particularly for
sequences up to 100K tokens. While traditional speculative decoding methods
exist, simply extending their generation limits fails to accelerate the process
and can be detrimental. Through an in-depth analysis, we identify three major
challenges hindering efficient generation: frequent model reloading, dynamic
key-value (KV) management and repetitive generation. To address these issues,
we introduce TOKENSWIFT, a novel framework designed to substantially accelerate
the generation process of ultra-long sequences while maintaining the target
model's inherent quality. Experimental results demonstrate that TOKENSWIFT
achieves over 3 times speedup across models of varying scales (1.5B, 7B, 8B,
14B) and architectures (MHA, GQA). This acceleration translates to hours of
time savings for ultra-long sequence generation, establishing TOKENSWIFT as a
scalable and effective solution at unprecedented lengths. Code can be found at
https://github.com/bigai-nlco/TokenSwift.Summary
AI-Generated Summary