Awaker2.5-VL: Stabil skalierende MLLMs mit parameter-effizientem Gemisch von Experten
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
November 16, 2024
Autoren: Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu
cs.AI
Zusammenfassung
Mit der zunehmenden Popularität der Forschung zu Multimodalen Großen Sprachmodellen (MLLMs) wird typischerweise von einem fortschreitenden MLLM-Modell erwartet, dass es gleichzeitig verschiedene textuelle und visuelle Aufgaben (z. B. VQA, Detektion, OCR und ChartQA) für Anwendungen in der realen Welt bewältigt. Aufgrund signifikanter Unterschiede in der Repräsentation und Verteilung von Daten aus verschiedenen Aufgaben führt das einfache Vermischen von Daten aller Aufgaben zu dem bekannten Problem des "Multi-Task-Konflikts", was zu einer Leistungsverschlechterung bei verschiedenen Aufgaben führt. Um dieses Problem anzugehen, schlagen wir Awaker2.5-VL vor, eine Mixture of Experts (MoE)-Architektur, die für MLLM geeignet ist und die Multi-Task-Fähigkeiten durch mehrere spärlich aktivierten Experten erwirbt. Um das Training und die Inferenz von Awaker2.5-VL zu beschleunigen, wird jeder Experte in unserem Modell als eine Low-Rank-Adaptationsstruktur (LoRA) konzipiert. Umfangreiche Experimente an mehreren aktuellen Benchmarks zeigen die Wirksamkeit von Awaker2.5-VL. Der Code und das Modellgewicht sind auf unserer Projektseite verfügbar: https://github.com/MetabrainAGI/Awaker.
English
As the research of Multimodal Large Language Models (MLLMs) becomes popular,
an advancing MLLM model is typically required to handle various textual and
visual tasks (e.g., VQA, Detection, OCR, and ChartQA) simultaneously for
real-world applications. However, due to the significant differences in
representation and distribution among data from various tasks, simply mixing
data of all tasks together leads to the well-known``multi-task conflict" issue,
resulting in performance degradation across various tasks. To address this
issue, we propose Awaker2.5-VL, a Mixture of Experts~(MoE) architecture
suitable for MLLM, which acquires the multi-task capabilities through multiple
sparsely activated experts. To speed up the training and inference of
Awaker2.5-VL, each expert in our model is devised as a low-rank adaptation
(LoRA) structure. Extensive experiments on multiple latest benchmarks
demonstrate the effectiveness of Awaker2.5-VL. The code and model weight are
released in our Project Page: https://github.com/MetabrainAGI/Awaker.Summary
AI-Generated Summary