Parameter vs. FLOPs: Skalierungsgesetze für optimale Sparsamkeit für Mixture-of-Experts Sprachmodelle
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
January 21, 2025
Autoren: Samira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak
cs.AI
Zusammenfassung
Das Skalieren der Kapazität von Sprachmodellen hat sich als zuverlässiger Ansatz zur Verbesserung der Leistung und Erschließung neuer Fähigkeiten erwiesen. Kapazität kann hauptsächlich durch zwei Dimensionen definiert werden: die Anzahl der Modellparameter und die Berechnung pro Beispiel. Während das Skalieren in der Regel eine Erhöhung beider Dimensionen beinhaltet, ist das genaue Zusammenspiel zwischen diesen Faktoren und ihr kombinierter Beitrag zur Gesamtkapazität noch nicht vollständig verstanden. Wir untersuchen diese Beziehung im Kontext von spärlichen Mixture-of-Experts (MoEs), die es ermöglichen, die Anzahl der Parameter zu skalieren, ohne die FLOPs pro Beispiel proportional zu erhöhen. Wir untersuchen, wie das Variieren des Sparsamkeitsniveaus, d.h. des Anteils inaktiver Parameter, die Leistung des Modells während des Pretrainings und der nachgelagerten Few-Shot-Bewertung beeinflusst. Wir stellen fest, dass es unter verschiedenen Einschränkungen (z. B. Parametergröße und Gesamttrainingsberechnung) ein optimales Sparsamkeitsniveau gibt, das sowohl die Trainingseffizienz als auch die Modellleistung verbessert. Diese Ergebnisse ermöglichen ein besseres Verständnis der Auswirkungen von Sparsamkeit in Skalierungsgesetzen für MoEs und ergänzen bestehende Arbeiten in diesem Bereich, indem sie Einblicke für die Gestaltung effizienterer Architekturen bieten.
English
Scaling the capacity of language models has consistently proven to be a
reliable approach for improving performance and unlocking new capabilities.
Capacity can be primarily defined by two dimensions: the number of model
parameters and the compute per example. While scaling typically involves
increasing both, the precise interplay between these factors and their combined
contribution to overall capacity remains not fully understood. We explore this
relationship in the context of sparse Mixture-of-Experts (MoEs), which allow
scaling the number of parameters without proportionally increasing the FLOPs
per example. We investigate how varying the sparsity level, i.e., the fraction
of inactive parameters, impacts model's performance during pretraining and
downstream few-shot evaluation. We find that under different constraints (e.g.,
parameter size and total training compute), there is an optimal level of
sparsity that improves both training efficiency and model performance. These
results provide a better understanding of the impact of sparsity in scaling
laws for MoEs and complement existing works in this area, offering insights for
designing more efficient architectures.Summary
AI-Generated Summary