LIBMoE : Une bibliothèque pour l'évaluation complète des Mélanges d'Experts dans les Grands Modèles de Langage
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models
November 1, 2024
Auteurs: Nam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham
cs.AI
Résumé
Les Mélanges d'Experts (MoEs) jouent un rôle important dans le développement de modèles de langage de grande taille (LLMs) plus efficaces et performants. En raison des énormes besoins en ressources, l'étude des algorithmes MoE à grande échelle reste inaccessible à de nombreux chercheurs. Ce travail développe LibMoE, un cadre complet et modulaire pour rationaliser la recherche, la formation et l'évaluation des algorithmes MoE. Basé sur trois principes fondamentaux : (i) conception modulaire, (ii) formation efficace ; (iii) évaluation complète, LibMoE rend les MoE dans les LLMs plus accessibles à un large éventail de chercheurs en standardisant les pipelines de formation et d'évaluation. En utilisant LibMoE, nous avons largement évalué cinq algorithmes MoE de pointe sur trois LLMs différents et 11 ensembles de données dans le cadre de la configuration de zéro-shot. Les résultats montrent que malgré les caractéristiques uniques, tous les algorithmes MoE se comportent de manière assez similaire lorsqu'ils sont moyennés sur un large éventail de tâches. Avec sa conception modulaire et son évaluation approfondie, nous pensons que LibMoE sera inestimable pour les chercheurs afin de progresser de manière significative vers la prochaine génération de MoE et de LLMs. Page du projet : https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
English
Mixture of Experts (MoEs) plays an important role in the development of more
efficient and effective large language models (LLMs). Due to the enormous
resource requirements, studying large scale MoE algorithms remain in-accessible
to many researchers. This work develops LibMoE, a comprehensive and
modular framework to streamline the research, training, and evaluation of MoE
algorithms. Built upon three core principles: (i) modular design, (ii)
efficient training; (iii) comprehensive evaluation, LibMoE brings MoE in LLMs
more accessible to a wide range of researchers by standardizing the training
and evaluation pipelines. Using LibMoE, we extensively benchmarked five
state-of-the-art MoE algorithms over three different LLMs and 11 datasets under
the zero-shot setting. The results show that despite the unique
characteristics, all MoE algorithms perform roughly similar when averaged
across a wide range of tasks. With the modular design and extensive evaluation,
we believe LibMoE will be invaluable for researchers to make meaningful
progress towards the next generation of MoE and LLMs. Project page:
https://fsoft-aic.github.io/fsoft-LibMoE.github.io.Summary
AI-Generated Summary