BlueLM-V-3B: Progettazione congiunta di algoritmi e sistemi per modelli linguistici multimodali di grandi dimensioni su dispositivi mobili

Abstract

L'emergere e la crescente popolarità dei modelli linguistici multimodali di grandi dimensioni (MLLM) hanno un significativo potenziale per migliorare vari aspetti della vita quotidiana, dall'ottimizzazione della comunicazione alla facilitazione dell'apprendimento e della risoluzione dei problemi. I telefoni cellulari, come compagni quotidiani essenziali, rappresentano la piattaforma di distribuzione più efficace e accessibile per i MLLM, consentendo un'integrazione senza soluzione di continuità nelle attività quotidiane. Tuttavia, la distribuzione dei MLLM sui telefoni cellulari presenta sfide a causa delle limitazioni delle dimensioni della memoria e delle capacità computazionali, rendendo difficile ottenere un'elaborazione fluida e in tempo reale senza un'ampia ottimizzazione. In questo articolo, presentiamo BlueLM-V-3B, un approccio di co-progettazione algoritmico e di sistema appositamente progettato per la distribuzione efficiente dei MLLM su piattaforme mobili. In particolare, ridisegniamo lo schema di risoluzione dinamica adottato dai MLLM principali e implementiamo l'ottimizzazione di sistema per la distribuzione consapevole dell'hardware al fine di ottimizzare l'inferenza del modello sui telefoni cellulari. BlueLM-V-3B vanta i seguenti punti salienti: (1) Dimensioni ridotte: BlueLM-V-3B presenta un modello linguistico con 2,7 miliardi di parametri e un codificatore di visione con 400 milioni di parametri. (2) Velocità elevata: BlueLM-V-3B raggiunge una velocità di generazione di 24,4 token/s sul processore MediaTek Dimensity 9300 con quantizzazione dei pesi LLM a 4 bit. (3) Elevate prestazioni: BlueLM-V-3B ha ottenuto il punteggio medio più alto di 66,1 nel benchmark OpenCompass tra i modelli con parametri inferiori o uguali a 4 miliardi e ha superato una serie di modelli con dimensioni di parametri molto più grandi (ad esempio, MiniCPM-V-2.6, InternVL2-8B).

English

The emergence and growing popularity of multimodal large language models (MLLMs) have significant potential to enhance various aspects of daily life, from improving communication to facilitating learning and problem-solving. Mobile phones, as essential daily companions, represent the most effective and accessible deployment platform for MLLMs, enabling seamless integration into everyday tasks. However, deploying MLLMs on mobile phones presents challenges due to limitations in memory size and computational capability, making it difficult to achieve smooth and real-time processing without extensive optimization. In this paper, we present BlueLM-V-3B, an algorithm and system co-design approach specifically tailored for the efficient deployment of MLLMs on mobile platforms. To be specific, we redesign the dynamic resolution scheme adopted by mainstream MLLMs and implement system optimization for hardware-aware deployment to optimize model inference on mobile phones. BlueLM-V-3B boasts the following key highlights: (1) Small Size: BlueLM-V-3B features a language model with 2.7B parameters and a vision encoder with 400M parameters. (2) Fast Speed: BlueLM-V-3B achieves a generation speed of 24.4 token/s on the MediaTek Dimensity 9300 processor with 4-bit LLM weight quantization. (3) Strong Performance: BlueLM-V-3B has attained the highest average score of 66.1 on the OpenCompass benchmark among models with leq 4B parameters and surpassed a series of models with much larger parameter sizes (e.g., MiniCPM-V-2.6, InternVL2-8B).

BlueLM-V-3B: Progettazione congiunta di algoritmi e sistemi per modelli linguistici multimodali di grandi dimensioni su dispositivi mobili

BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

Abstract

Support