Awaker2.5-VL: Scalare in modo stabile MLLM con una miscela efficiente di esperti parametrici
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
November 16, 2024
Autori: Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu
cs.AI
Abstract
Con l'aumentare della popolarità della ricerca sui Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM), tipicamente un modello MLLM avanzato è richiesto per gestire contemporaneamente varie attività testuali e visive (ad esempio, VQA, Rilevamento, OCR e ChartQA) per applicazioni reali. Tuttavia, a causa delle significative differenze nella rappresentazione e distribuzione dei dati provenienti da varie attività, mescolare semplicemente i dati di tutte le attività porta al noto problema del "conflitto multi-attività", che comporta una riduzione delle prestazioni in varie attività. Per affrontare questo problema, proponiamo Awaker2.5-VL, un'architettura Mixture of Experts (MoE) adatta per MLLM, che acquisisce le capacità multi-attività attraverso diversi esperti attivati in modo sparso. Per accelerare l'addestramento e l'inferenza di Awaker2.5-VL, ogni esperto nel nostro modello è progettato come una struttura di adattamento a basso rango (LoRA). Estesi esperimenti su più recenti benchmark dimostrano l'efficacia di Awaker2.5-VL. Il codice e i pesi del modello sono disponibili sulla nostra Pagina del Progetto: https://github.com/MetabrainAGI/Awaker.
English
As the research of Multimodal Large Language Models (MLLMs) becomes popular,
an advancing MLLM model is typically required to handle various textual and
visual tasks (e.g., VQA, Detection, OCR, and ChartQA) simultaneously for
real-world applications. However, due to the significant differences in
representation and distribution among data from various tasks, simply mixing
data of all tasks together leads to the well-known``multi-task conflict" issue,
resulting in performance degradation across various tasks. To address this
issue, we propose Awaker2.5-VL, a Mixture of Experts~(MoE) architecture
suitable for MLLM, which acquires the multi-task capabilities through multiple
sparsely activated experts. To speed up the training and inference of
Awaker2.5-VL, each expert in our model is devised as a low-rank adaptation
(LoRA) structure. Extensive experiments on multiple latest benchmarks
demonstrate the effectiveness of Awaker2.5-VL. The code and model weight are
released in our Project Page: https://github.com/MetabrainAGI/Awaker.Summary
AI-Generated Summary