Awaker2.5-VL : Mise à l'échelle stable des MLLM avec un mélange d'experts efficace en paramètres
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
November 16, 2024
Auteurs: Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu
cs.AI
Résumé
À mesure que la recherche sur les Modèles de Langage Multimodaux de Grande Taille (MLLM) devient populaire, un modèle MLLM avancé est généralement requis pour gérer simultanément diverses tâches textuelles et visuelles (par exemple, VQA, Détection, OCR et ChartQA) pour des applications du monde réel. Cependant, en raison des différences significatives de représentation et de distribution parmi les données provenant de différentes tâches, mélanger simplement les données de toutes les tâches ensemble conduit au problème bien connu de "conflit multi-tâches", entraînant une dégradation des performances dans diverses tâches. Pour résoudre ce problème, nous proposons Awaker2.5-VL, une architecture Mixture of Experts (MoE) adaptée aux MLLM, qui acquiert les capacités multi-tâches grâce à plusieurs experts activés de manière dispersée. Pour accélérer l'entraînement et l'inférence d'Awaker2.5-VL, chaque expert de notre modèle est conçu comme une structure d'adaptation à faible rang (LoRA). Des expériences approfondies sur plusieurs derniers bancs d'essai démontrent l'efficacité d'Awaker2.5-VL. Le code et le modèle pré-entraîné sont disponibles sur notre Page de Projet : https://github.com/MetabrainAGI/Awaker.
English
As the research of Multimodal Large Language Models (MLLMs) becomes popular,
an advancing MLLM model is typically required to handle various textual and
visual tasks (e.g., VQA, Detection, OCR, and ChartQA) simultaneously for
real-world applications. However, due to the significant differences in
representation and distribution among data from various tasks, simply mixing
data of all tasks together leads to the well-known``multi-task conflict" issue,
resulting in performance degradation across various tasks. To address this
issue, we propose Awaker2.5-VL, a Mixture of Experts~(MoE) architecture
suitable for MLLM, which acquires the multi-task capabilities through multiple
sparsely activated experts. To speed up the training and inference of
Awaker2.5-VL, each expert in our model is devised as a low-rank adaptation
(LoRA) structure. Extensive experiments on multiple latest benchmarks
demonstrate the effectiveness of Awaker2.5-VL. The code and model weight are
released in our Project Page: https://github.com/MetabrainAGI/Awaker.Summary
AI-Generated Summary