Awaker2.5-VL: Stabiel schalen van MLLM's met een parameter-efficiënte mix van experts
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
November 16, 2024
Auteurs: Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu
cs.AI
Samenvatting
Nu het onderzoek naar Multimodale Grote Taalmodellen (MLLM's) populairder wordt, is een geavanceerd MLLM-model typisch vereist om verschillende tekstuele en visuele taken (bijv. VQA, Detectie, OCR en ChartQA) gelijktijdig te verwerken voor praktische toepassingen. Echter, vanwege de aanzienlijke verschillen in representatie en distributie tussen gegevens van verschillende taken, leidt eenvoudigweg het samenvoegen van gegevens van alle taken tot het bekende "multi-taak conflict" probleem, resulterend in prestatievermindering over verschillende taken. Om dit probleem aan te pakken, stellen we Awaker2.5-VL voor, een Architectuur van een Mengeling van Experts~(MoE) geschikt voor MLLM, die de multi-taak mogelijkheden verwerft door middel van meerdere spaarzaam geactiveerde experts. Om het trainen en afleiden van Awaker2.5-VL te versnellen, is elke expert in ons model ontworpen als een structuur van lage rangorde (LoRA). Uitgebreide experimenten op meerdere recente benchmarks tonen de effectiviteit van Awaker2.5-VL aan. De code en modelgewicht zijn vrijgegeven op onze Projectpagina: https://github.com/MetabrainAGI/Awaker.
English
As the research of Multimodal Large Language Models (MLLMs) becomes popular,
an advancing MLLM model is typically required to handle various textual and
visual tasks (e.g., VQA, Detection, OCR, and ChartQA) simultaneously for
real-world applications. However, due to the significant differences in
representation and distribution among data from various tasks, simply mixing
data of all tasks together leads to the well-known``multi-task conflict" issue,
resulting in performance degradation across various tasks. To address this
issue, we propose Awaker2.5-VL, a Mixture of Experts~(MoE) architecture
suitable for MLLM, which acquires the multi-task capabilities through multiple
sparsely activated experts. To speed up the training and inference of
Awaker2.5-VL, each expert in our model is devised as a low-rank adaptation
(LoRA) structure. Extensive experiments on multiple latest benchmarks
demonstrate the effectiveness of Awaker2.5-VL. The code and model weight are
released in our Project Page: https://github.com/MetabrainAGI/Awaker.Summary
AI-Generated Summary