Attenzione a Stelle: Inferenza Efficient di LLM su Sequenze Lunghe
Star Attention: Efficient LLM Inference over Long Sequences
November 26, 2024
Autori: Shantanu Acharya, Fei Jia, Boris Ginsburg
cs.AI
Abstract
L'inferenza con modelli linguistici di grandi dimensioni (LLM) basati su Transformer su sequenze lunghe è sia costosa che lenta a causa della complessità quadratica del meccanismo di autoattenzione. Introduciamo Star Attention, un'approximazione blocco-sparso a due fasi che migliora l'efficienza computazionale suddividendo l'attenzione su più host riducendo al minimo il costo della comunicazione. Nella prima fase, il contesto viene elaborato utilizzando un'attenzione locale a blocchi tra gli host, in parallelo. Nella seconda fase, i token di query e risposta si concentrano su tutti i token memorizzati in precedenza attraverso un'attenzione globale alla sequenza. Star Attention si integra perfettamente con la maggior parte dei LLM basati su Transformer addestrati con attenzione globale, riducendo i requisiti di memoria e il tempo di inferenza fino a 11 volte pur conservando il 95-100% di accuratezza.
English
Inference with Transformer-based Large Language Models (LLMs) on long
sequences is both costly and slow due to the quadratic complexity of the
self-attention mechanism. We introduce Star Attention, a two-phase block-sparse
approximation that improves computational efficiency by sharding attention
across multiple hosts while minimizing communication overhead. In the first
phase, the context is processed using blockwise-local attention across hosts,
in parallel. In the second phase, query and response tokens attend to all prior
cached tokens through sequence-global attention. Star Attention integrates
seamlessly with most Transformer-based LLMs trained with global attention,
reducing memory requirements and inference time by up to 11x while preserving
95-100% of accuracy.Summary
AI-Generated Summary