SEAP: Trainingsfreie Sparse-Expert-Aktivierungsausdünnung – Entfesseln Sie die Gehirnleistung großer Sprachmodelle
SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models
March 10, 2025
Autoren: Xun Liang, Hanyu Wang, Huayi Lai, Simin Niu, Shichao Song, Jiawei Yang, Jihao Zhao, Feiyu Xiong, Bo Tang, Zhiyu Li
cs.AI
Zusammenfassung
Große Sprachmodelle haben bemerkenswerte Erfolge in verschiedenen Aufgaben der natürlichen Sprachverarbeitung erzielt, doch ihre hohen Rechenkosten während der Inferenz bleiben ein wesentliches Hindernis. Dieses Papier stellt Sparse Expert Activation Pruning (SEAP) vor, eine trainingsfreie Pruning-Methode, die gezielt aufgabenrelevante Parameter beibehält, um den Inferenzaufwand zu reduzieren. Inspiriert von den Clusterungsmustern der verborgenen Zustände und Aktivierungen in großen Sprachmodellen identifiziert SEAP aufgabenspezifische Expertenaktivierungsmuster und reduziert das Modell, während die Aufgabenleistung erhalten bleibt und die Recheneffizienz verbessert wird. Experimentelle Ergebnisse zeigen, dass SEAP den Rechenaufwand erheblich reduziert und dabei eine wettbewerbsfähige Genauigkeit beibehält. Insbesondere übertrifft SEAP bei 50 % Pruning sowohl WandA als auch FLAP um über 20 %, und bei 20 % Pruning führt es nur zu einem Leistungsabfall von 2,2 % im Vergleich zum dichten Modell. Diese Ergebnisse unterstreichen die Skalierbarkeit und Effektivität von SEAP und machen es zu einem vielversprechenden Ansatz zur Optimierung von großskaligen Sprachmodellen.
English
Large Language Models have achieved remarkable success across various natural
language processing tasks, yet their high computational cost during inference
remains a major bottleneck. This paper introduces Sparse Expert Activation
Pruning (SEAP), a training-free pruning method that selectively retains
task-relevant parameters to reduce inference overhead. Inspired by the
clustering patterns of hidden states and activations in LLMs, SEAP identifies
task-specific expert activation patterns and prunes the model while preserving
task performance and enhancing computational efficiency. Experimental results
demonstrate that SEAP significantly reduces computational overhead while
maintaining competitive accuracy. Notably, at 50% pruning, SEAP surpasses both
WandA and FLAP by over 20%, and at 20% pruning, it incurs only a 2.2%
performance drop compared to the dense model. These findings highlight SEAP's
scalability and effectiveness, making it a promising approach for optimizing
large-scale LLMs.Summary
AI-Generated Summary