Parameters versus FLOPs: Schaalwetten voor optimale spaarzaamheid voor taalmodellen met een mix van experts.
Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
January 21, 2025
Auteurs: Samira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak
cs.AI
Samenvatting
Het vergroten van de capaciteit van taalmodellen heeft consequent bewezen een betrouwbare aanpak te zijn om de prestaties te verbeteren en nieuwe mogelijkheden te ontsluiten. Capaciteit kan voornamelijk worden gedefinieerd door twee dimensies: het aantal modelparameters en de berekening per voorbeeld. Hoewel schalen doorgaans beide inhoudt, is de precieze wisselwerking tussen deze factoren en hun gecombineerde bijdrage aan de algehele capaciteit nog niet volledig begrepen. We verkennen deze relatie in de context van schaarse Mixture-of-Experts (MoE's), die het mogelijk maken om het aantal parameters te vergroten zonder de FLOPs per voorbeeld evenredig te verhogen. We onderzoeken hoe variatie in het spaarzaamheidsniveau, dat wil zeggen het percentage inactieve parameters, de prestaties van het model beïnvloedt tijdens pretraining en downstream few-shot evaluatie. We ontdekken dat er onder verschillende beperkingen (bijv. parametersgrootte en totale trainingsberekening) een optimaal niveau van spaarzaamheid is dat zowel de trainings-efficiëntie als de modelprestaties verbetert. Deze resultaten bieden een beter begrip van de impact van spaarzaamheid in schaalwetten voor MoE's en vullen bestaande werken op dit gebied aan, en bieden inzichten voor het ontwerpen van efficiëntere architecturen.
English
Scaling the capacity of language models has consistently proven to be a
reliable approach for improving performance and unlocking new capabilities.
Capacity can be primarily defined by two dimensions: the number of model
parameters and the compute per example. While scaling typically involves
increasing both, the precise interplay between these factors and their combined
contribution to overall capacity remains not fully understood. We explore this
relationship in the context of sparse Mixture-of-Experts (MoEs), which allow
scaling the number of parameters without proportionally increasing the FLOPs
per example. We investigate how varying the sparsity level, i.e., the fraction
of inactive parameters, impacts model's performance during pretraining and
downstream few-shot evaluation. We find that under different constraints (e.g.,
parameter size and total training compute), there is an optimal level of
sparsity that improves both training efficiency and model performance. These
results provide a better understanding of the impact of sparsity in scaling
laws for MoEs and complement existing works in this area, offering insights for
designing more efficient architectures.Summary
AI-Generated Summary