LIBMoE: Een bibliotheek voor uitgebreide benchmarking van Mengmodellen van Experts in Grote Taalmodellen
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models
November 1, 2024
Auteurs: Nam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham
cs.AI
Samenvatting
Mixture of Experts (MoEs) speelt een belangrijke rol in de ontwikkeling van meer efficiënte en effectieve grote taalmodellen (LLMs). Vanwege de enorme resourcevereisten blijven de studie van grootschalige MoE-algoritmes ontoegankelijk voor veel onderzoekers. Dit werk ontwikkelt LibMoE, een uitgebreid en modulair framework om het onderzoek, de training en de evaluatie van MoE-algoritmes te stroomlijnen. Gebaseerd op drie kernprincipes: (i) modulair ontwerp, (ii) efficiënte training; (iii) uitgebreide evaluatie, maakt LibMoE MoE in LLMs toegankelijker voor een breed scala aan onderzoekers door de training en evaluatiepijplijnen te standaardiseren. Met behulp van LibMoE hebben we uitgebreid vijf toonaangevende MoE-algoritmes getest op drie verschillende LLMs en 11 datasets onder de zero-shot instelling. De resultaten tonen aan dat ondanks de unieke kenmerken, alle MoE-algoritmes ongeveer vergelijkbaar presteren wanneer ze gemiddeld worden over een breed scala aan taken. Met het modulaire ontwerp en uitgebreide evaluatie geloven we dat LibMoE van onschatbare waarde zal zijn voor onderzoekers om zinvolle vooruitgang te boeken naar de volgende generatie van MoE en LLMs. Projectpagina: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.
English
Mixture of Experts (MoEs) plays an important role in the development of more
efficient and effective large language models (LLMs). Due to the enormous
resource requirements, studying large scale MoE algorithms remain in-accessible
to many researchers. This work develops LibMoE, a comprehensive and
modular framework to streamline the research, training, and evaluation of MoE
algorithms. Built upon three core principles: (i) modular design, (ii)
efficient training; (iii) comprehensive evaluation, LibMoE brings MoE in LLMs
more accessible to a wide range of researchers by standardizing the training
and evaluation pipelines. Using LibMoE, we extensively benchmarked five
state-of-the-art MoE algorithms over three different LLMs and 11 datasets under
the zero-shot setting. The results show that despite the unique
characteristics, all MoE algorithms perform roughly similar when averaged
across a wide range of tasks. With the modular design and extensive evaluation,
we believe LibMoE will be invaluable for researchers to make meaningful
progress towards the next generation of MoE and LLMs. Project page:
https://fsoft-aic.github.io/fsoft-LibMoE.github.io.Summary
AI-Generated Summary