BlueLM-V-3B : Conception d'algorithmes et de systèmes pour les grands modèles de langage multimodaux sur appareils mobiles

BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

November 16, 2024
Auteurs: Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li
cs.AI

Résumé

L'émergence et la popularité croissante des grands modèles de langage multimodaux (MLLM) ont un potentiel significatif pour améliorer divers aspects de la vie quotidienne, de la communication à l'apprentissage et à la résolution de problèmes. Les téléphones mobiles, compagnons quotidiens essentiels, représentent la plateforme de déploiement la plus efficace et accessible pour les MLLMs, permettant une intégration transparente dans les tâches quotidiennes. Cependant, le déploiement des MLLMs sur les téléphones mobiles présente des défis en raison des limitations de la taille de la mémoire et des capacités de calcul, rendant difficile l'obtention d'un traitement fluide et en temps réel sans une optimisation poussée. Dans cet article, nous présentons BlueLM-V-3B, une approche de co-conception d'algorithme et de système spécifiquement conçue pour le déploiement efficace des MLLMs sur des plateformes mobiles. Plus précisément, nous redessinons le schéma de résolution dynamique adopté par les MLLMs courants et mettons en œuvre une optimisation système pour un déploiement conscient du matériel afin d'optimiser l'inférence du modèle sur les téléphones mobiles. BlueLM-V-3B présente les points forts suivants : (1) Petite taille : BlueLM-V-3B propose un modèle de langage avec 2,7 milliards de paramètres et un encodeur de vision avec 400 millions de paramètres. (2) Vitesse rapide : BlueLM-V-3B atteint une vitesse de génération de 24,4 jetons/s sur le processeur MediaTek Dimensity 9300 avec une quantification des poids LLM sur 4 bits. (3) Performances élevées : BlueLM-V-3B a obtenu le score moyen le plus élevé de 66,1 sur le banc d'essai OpenCompass parmi les modèles avec moins de 4 milliards de paramètres et a surpassé une série de modèles avec des tailles de paramètres beaucoup plus grandes (par exemple, MiniCPM-V-2.6, InternVL2-8B).
English
The emergence and growing popularity of multimodal large language models (MLLMs) have significant potential to enhance various aspects of daily life, from improving communication to facilitating learning and problem-solving. Mobile phones, as essential daily companions, represent the most effective and accessible deployment platform for MLLMs, enabling seamless integration into everyday tasks. However, deploying MLLMs on mobile phones presents challenges due to limitations in memory size and computational capability, making it difficult to achieve smooth and real-time processing without extensive optimization. In this paper, we present BlueLM-V-3B, an algorithm and system co-design approach specifically tailored for the efficient deployment of MLLMs on mobile platforms. To be specific, we redesign the dynamic resolution scheme adopted by mainstream MLLMs and implement system optimization for hardware-aware deployment to optimize model inference on mobile phones. BlueLM-V-3B boasts the following key highlights: (1) Small Size: BlueLM-V-3B features a language model with 2.7B parameters and a vision encoder with 400M parameters. (2) Fast Speed: BlueLM-V-3B achieves a generation speed of 24.4 token/s on the MediaTek Dimensity 9300 processor with 4-bit LLM weight quantization. (3) Strong Performance: BlueLM-V-3B has attained the highest average score of 66.1 on the OpenCompass benchmark among models with leq 4B parameters and surpassed a series of models with much larger parameter sizes (e.g., MiniCPM-V-2.6, InternVL2-8B).

Summary

AI-Generated Summary

PDF394November 19, 2024