SEAP: Trainingsfreie Sparse-Expert-Aktivierungsausdünnung – Entfesseln Sie die Gehirnleistung großer Sprachmodelle

Zusammenfassung

Große Sprachmodelle haben bemerkenswerte Erfolge in verschiedenen Aufgaben der natürlichen Sprachverarbeitung erzielt, doch ihre hohen Rechenkosten während der Inferenz bleiben ein wesentliches Hindernis. Dieses Papier stellt Sparse Expert Activation Pruning (SEAP) vor, eine trainingsfreie Pruning-Methode, die gezielt aufgabenrelevante Parameter beibehält, um den Inferenzaufwand zu reduzieren. Inspiriert von den Clusterungsmustern der verborgenen Zustände und Aktivierungen in großen Sprachmodellen identifiziert SEAP aufgabenspezifische Expertenaktivierungsmuster und reduziert das Modell, während die Aufgabenleistung erhalten bleibt und die Recheneffizienz verbessert wird. Experimentelle Ergebnisse zeigen, dass SEAP den Rechenaufwand erheblich reduziert und dabei eine wettbewerbsfähige Genauigkeit beibehält. Insbesondere übertrifft SEAP bei 50 % Pruning sowohl WandA als auch FLAP um über 20 %, und bei 20 % Pruning führt es nur zu einem Leistungsabfall von 2,2 % im Vergleich zum dichten Modell. Diese Ergebnisse unterstreichen die Skalierbarkeit und Effektivität von SEAP und machen es zu einem vielversprechenden Ansatz zur Optimierung von großskaligen Sprachmodellen.

English

Large Language Models have achieved remarkable success across various natural language processing tasks, yet their high computational cost during inference remains a major bottleneck. This paper introduces Sparse Expert Activation Pruning (SEAP), a training-free pruning method that selectively retains task-relevant parameters to reduce inference overhead. Inspired by the clustering patterns of hidden states and activations in LLMs, SEAP identifies task-specific expert activation patterns and prunes the model while preserving task performance and enhancing computational efficiency. Experimental results demonstrate that SEAP significantly reduces computational overhead while maintaining competitive accuracy. Notably, at 50% pruning, SEAP surpasses both WandA and FLAP by over 20%, and at 20% pruning, it incurs only a 2.2% performance drop compared to the dense model. These findings highlight SEAP's scalability and effectiveness, making it a promising approach for optimizing large-scale LLMs.

SEAP: Trainingsfreie Sparse-Expert-Aktivierungsausdünnung – Entfesseln Sie die Gehirnleistung großer Sprachmodelle

SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

Zusammenfassung

Summary

Support

Support