BlueLM-V-3B: Algorithmus- und System-Co-Design für multimodale große Sprachmodelle auf mobilen Geräten
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
November 16, 2024
Autoren: Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li
cs.AI
Zusammenfassung
Das Aufkommen und die zunehmende Beliebtheit multimodaler großer Sprachmodelle (MLLMs) haben ein signifikantes Potenzial, verschiedene Aspekte des täglichen Lebens zu verbessern, von der Verbesserung der Kommunikation bis hin zur Erleichterung des Lernens und der Problemlösung. Mobiltelefone, als unverzichtbare tägliche Begleiter, stellen die effektivste und zugänglichste Bereitstellungsplattform für MLLMs dar und ermöglichen eine nahtlose Integration in alltägliche Aufgaben. Die Bereitstellung von MLLMs auf Mobiltelefonen birgt jedoch Herausforderungen aufgrund von Speichergrößenbeschränkungen und Rechenkapazität, was es schwierig macht, eine reibungslose und Echtzeitverarbeitung ohne umfangreiche Optimierung zu erreichen. In diesem Papier präsentieren wir BlueLM-V-3B, einen Algorithmus- und System-Co-Design-Ansatz, der speziell für die effiziente Bereitstellung von MLLMs auf mobilen Plattformen entwickelt wurde. Konkret überarbeiten wir das dynamische Auflösungsschema, das von Mainstream-MLLMs übernommen wurde, und implementieren Systemoptimierungen für eine hardwarebewusste Bereitstellung, um die Modellinferenz auf Mobiltelefonen zu optimieren. BlueLM-V-3B zeichnet sich durch folgende Schlüsseleigenschaften aus: (1) Geringe Größe: BlueLM-V-3B verfügt über ein Sprachmodell mit 2,7 Milliarden Parametern und einen Vision-Encoder mit 400 Millionen Parametern. (2) Hohe Geschwindigkeit: BlueLM-V-3B erreicht eine Generierungsgeschwindigkeit von 24,4 Token/s auf dem MediaTek Dimensity 9300-Prozessor mit 4-Bit-LLM-Gewichtsquantisierung. (3) Starke Leistung: BlueLM-V-3B hat mit einem durchschnittlichen Score von 66,1 im OpenCompass-Benchmark unter Modellen mit weniger als oder gleich 4 Milliarden Parametern den höchsten Wert erreicht und eine Reihe von Modellen mit deutlich größeren Parametervolumina übertroffen (z. B. MiniCPM-V-2.6, InternVL2-8B).
English
The emergence and growing popularity of multimodal large language models
(MLLMs) have significant potential to enhance various aspects of daily life,
from improving communication to facilitating learning and problem-solving.
Mobile phones, as essential daily companions, represent the most effective and
accessible deployment platform for MLLMs, enabling seamless integration into
everyday tasks. However, deploying MLLMs on mobile phones presents challenges
due to limitations in memory size and computational capability, making it
difficult to achieve smooth and real-time processing without extensive
optimization. In this paper, we present BlueLM-V-3B, an algorithm and system
co-design approach specifically tailored for the efficient deployment of MLLMs
on mobile platforms. To be specific, we redesign the dynamic resolution scheme
adopted by mainstream MLLMs and implement system optimization for
hardware-aware deployment to optimize model inference on mobile phones.
BlueLM-V-3B boasts the following key highlights: (1) Small Size: BlueLM-V-3B
features a language model with 2.7B parameters and a vision encoder with 400M
parameters. (2) Fast Speed: BlueLM-V-3B achieves a generation speed of 24.4
token/s on the MediaTek Dimensity 9300 processor with 4-bit LLM weight
quantization. (3) Strong Performance: BlueLM-V-3B has attained the highest
average score of 66.1 on the OpenCompass benchmark among models with leq 4B
parameters and surpassed a series of models with much larger parameter sizes
(e.g., MiniCPM-V-2.6, InternVL2-8B).Summary
AI-Generated Summary