ChatPaper.aiChatPaper

La Frontière du Sparse : Compromis de l'Attention Sparse dans les Transformers LLM

The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs

April 24, 2025
Auteurs: Piotr Nawrot, Robert Li, Renjie Huang, Sebastian Ruder, Kelly Marchisio, Edoardo M. Ponti
cs.AI

Résumé

L'attention parcimonieuse offre une stratégie prometteuse pour étendre les capacités de contexte long dans les modèles de langage Transformer (LLM). Cependant, sa viabilité, ses compromis efficacité-précision et les études systématiques de mise à l'échelle restent inexplorés. Pour combler cette lacune, nous effectuons une comparaison minutieuse des méthodes d'attention parcimonieuse sans entraînement à différentes échelles de modèles, longueurs de séquences et niveaux de parcimonie sur une collection variée de tâches à séquences longues, y compris des tâches novatrices qui reposent sur le langage naturel tout en restant contrôlables et faciles à évaluer. Sur la base de nos expériences, nous rapportons une série de conclusions clés : 1) Une analyse isoFLOPS révèle que pour les séquences très longues, des modèles plus grands et hautement parcimonieux sont préférables à des modèles plus petits et denses. 2) Le niveau de parcimonie atteignable tout en garantissant statistiquement la préservation de la précision est plus élevé pendant le décodage que pendant le préremplissage, et il est corrélé à la taille du modèle dans le premier cas. 3) Il n'existe pas de stratégie claire qui fonctionne le mieux pour toutes les tâches et phases, avec des unités de parcimonie ou une adaptabilité budgétaire différentes nécessaires selon les scénarios. Même des niveaux de parcimonie modérés entraînent souvent une dégradation significative des performances sur au moins une tâche, soulignant que l'attention parcimonieuse n'est pas une solution universelle. 4) Nous introduisons et validons de nouvelles lois de mise à l'échelle spécifiquement adaptées à l'attention parcimonieuse, fournissant des preuves que nos conclusions sont susceptibles de rester valables au-delà de notre gamme d'expériences. Grâce à ces insights, nous démontrons que l'attention parcimonieuse est un outil clé pour améliorer les capacités des LLM Transformer à traiter des séquences plus longues, mais nécessite une évaluation minutieuse des compromis pour les applications sensibles aux performances.
English
Sparse attention offers a promising strategy to extend long-context capabilities in Transformer LLMs, yet its viability, its efficiency-accuracy trade-offs, and systematic scaling studies remain unexplored. To address this gap, we perform a careful comparison of training-free sparse attention methods at varying model scales, sequence lengths, and sparsity levels on a diverse collection of long-sequence tasks-including novel ones that rely on natural language while remaining controllable and easy to evaluate. Based on our experiments, we report a series of key findings: 1) an isoFLOPS analysis reveals that for very long sequences, larger and highly sparse models are preferable to smaller and dense ones. 2) The level of sparsity attainable while statistically guaranteeing accuracy preservation is higher during decoding than prefilling, and correlates with model size in the former. 3) There is no clear strategy that performs best across tasks and phases, with different units of sparsification or budget adaptivity needed for different scenarios. Even moderate sparsity levels often result in significant performance degradation on at least one task, highlighting that sparse attention is not a universal solution. 4) We introduce and validate novel scaling laws specifically tailored for sparse attention, providing evidence that our findings are likely to hold true beyond our range of experiments. Through these insights, we demonstrate that sparse attention is a key tool to enhance the capabilities of Transformer LLMs for processing longer sequences, but requires careful evaluation of trade-offs for performance-sensitive applications.

Summary

AI-Generated Summary

PDF82April 28, 2025