BlueLM-V-3B: Algoritme en Systeem Co-Design voor Multimodale Grote Taalmodellen op Mobiele Apparaten

BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

November 16, 2024
Auteurs: Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li
cs.AI

Samenvatting

De opkomst en groeiende populariteit van multimodale grote taalmodellen (MLLM's) hebben aanzienlijk potentieel om verschillende aspecten van het dagelijks leven te verbeteren, van het verbeteren van communicatie tot het vergemakkelijken van leren en probleemoplossing. Mobiele telefoons, als essentiële dagelijkse metgezellen, vertegenwoordigen het meest effectieve en toegankelijke implementatieplatform voor MLLM's, waardoor naadloze integratie in alledaagse taken mogelijk is. Het implementeren van MLLM's op mobiele telefoons brengt echter uitdagingen met zich mee vanwege beperkingen in geheugengrootte en rekenkracht, waardoor het moeilijk is om vloeiende en real-time verwerking te bereiken zonder uitgebreide optimalisatie. In dit artikel presenteren we BlueLM-V-3B, een algoritme- en systeem-co-ontwerpbenadering die specifiek is afgestemd op de efficiënte implementatie van MLLM's op mobiele platforms. Om specifiek te zijn, herontwerpen we het dynamische resolutieschema dat wordt aangenomen door gangbare MLLM's en implementeren we systeemoptimalisatie voor hardwarebewuste implementatie om modelinferentie op mobiele telefoons te optimaliseren. BlueLM-V-3B heeft de volgende belangrijke hoogtepunten: (1) Kleine omvang: BlueLM-V-3B heeft een taalmodel met 2,7 miljard parameters en een visie-encoder met 400 miljoen parameters. (2) Snelle snelheid: BlueLM-V-3B bereikt een generatiesnelheid van 24,4 tokens/s op de MediaTek Dimensity 9300-processor met 4-bits LLM-gewichtskwantisatie. (3) Sterke prestaties: BlueLM-V-3B heeft de hoogste gemiddelde score van 66,1 behaald op de OpenCompass-benchmark onder modellen met ≤ 4 miljard parameters en heeft een reeks modellen met veel grotere parametergroottes overtroffen (bijv. MiniCPM-V-2.6, InternVL2-8B).
English
The emergence and growing popularity of multimodal large language models (MLLMs) have significant potential to enhance various aspects of daily life, from improving communication to facilitating learning and problem-solving. Mobile phones, as essential daily companions, represent the most effective and accessible deployment platform for MLLMs, enabling seamless integration into everyday tasks. However, deploying MLLMs on mobile phones presents challenges due to limitations in memory size and computational capability, making it difficult to achieve smooth and real-time processing without extensive optimization. In this paper, we present BlueLM-V-3B, an algorithm and system co-design approach specifically tailored for the efficient deployment of MLLMs on mobile platforms. To be specific, we redesign the dynamic resolution scheme adopted by mainstream MLLMs and implement system optimization for hardware-aware deployment to optimize model inference on mobile phones. BlueLM-V-3B boasts the following key highlights: (1) Small Size: BlueLM-V-3B features a language model with 2.7B parameters and a vision encoder with 400M parameters. (2) Fast Speed: BlueLM-V-3B achieves a generation speed of 24.4 token/s on the MediaTek Dimensity 9300 processor with 4-bit LLM weight quantization. (3) Strong Performance: BlueLM-V-3B has attained the highest average score of 66.1 on the OpenCompass benchmark among models with leq 4B parameters and surpassed a series of models with much larger parameter sizes (e.g., MiniCPM-V-2.6, InternVL2-8B).

Summary

AI-Generated Summary

PDF394November 19, 2024