γ-MoD: Verkenning van Mixture-of-Depth Adaptatie voor Multimodale Grote Taalmodellen

Samenvatting

Ondanks de aanzienlijke vooruitgang in multimodale grote taalmodellen (MLLM's) blijft hun hoge rekenkundige kosten een belemmering vormen voor implementatie in de echte wereld. Geïnspireerd door de menging van dieptes (MoDs) in natuurlijke taalverwerking, streven we ernaar om deze beperking te benaderen vanuit het perspectief van "geactiveerde tokens". Ons belangrijkste inzicht is dat als de meeste tokens overbodig zijn voor de laagberekening, ze direct kunnen worden overgeslagen via de MoD-laag. Echter, het direct omzetten van de dichte lagen van MLLM's naar MoD-lagen leidt tot aanzienlijke prestatievermindering. Om dit probleem aan te pakken, stellen we een innovatieve MoD-aanpassingsstrategie voor bestaande MLLM's voor, genaamd gamma-MoD. In gamma-MoD wordt een nieuwe metriek voorgesteld om de implementatie van MoDs in de MLLM te sturen, namelijk de rangorde van aandachtskaarten (ARank). Via ARank kunnen we effectief identificeren welke laag overbodig is en moet worden vervangen door de MoD-laag. Op basis van ARank stellen we vervolgens twee nieuwe ontwerpen voor om de rekenkundige spaarzaamheid van MLLM te maximaliseren terwijl de prestaties behouden blijven, namelijk gedeelde visie-taalrouter en gemaskeerd routeringsleren. Met deze ontwerpen kunnen meer dan 90% van de dichte lagen van de MLLM effectief worden omgezet naar de MoD-lagen. Om onze methode te valideren, passen we deze toe op drie populaire MLLM's en voeren uitgebreide experimenten uit op 9 benchmarkdatasets. Experimentele resultaten bevestigen niet alleen het aanzienlijke efficiëntievoordeel van gamma-MoD voor bestaande MLLM's, maar bevestigen ook de generalisatiecapaciteit ervan op verschillende MLLM's. Bijvoorbeeld, met een kleine prestatiedaling, d.w.z. -1,5%, kan gamma-MoD de trainings- en inferentietijd van LLaVA-HR respectievelijk met 31,0% en 53,2% verminderen.

English

Despite the significant progress in multimodal large language models (MLLMs), their high computational cost remains a barrier to real-world deployment. Inspired by the mixture of depths (MoDs) in natural language processing, we aim to address this limitation from the perspective of ``activated tokens''. Our key insight is that if most tokens are redundant for the layer computation, then can be skipped directly via the MoD layer. However, directly converting the dense layers of MLLMs to MoD layers leads to substantial performance degradation. To address this issue, we propose an innovative MoD adaptation strategy for existing MLLMs called gamma-MoD. In gamma-MoD, a novel metric is proposed to guide the deployment of MoDs in the MLLM, namely rank of attention maps (ARank). Through ARank, we can effectively identify which layer is redundant and should be replaced with the MoD layer. Based on ARank, we further propose two novel designs to maximize the computational sparsity of MLLM while maintaining its performance, namely shared vision-language router and masked routing learning. With these designs, more than 90% dense layers of the MLLM can be effectively converted to the MoD ones. To validate our method, we apply it to three popular MLLMs, and conduct extensive experiments on 9 benchmark datasets. Experimental results not only validate the significant efficiency benefit of gamma-MoD to existing MLLMs but also confirm its generalization ability on various MLLMs. For example, with a minor performance drop, i.e., -1.5%, gamma-MoD can reduce the training and inference time of LLaVA-HR by 31.0% and 53.2%, respectively.

γ-MoD: Verkenning van Mixture-of-Depth Adaptatie voor Multimodale Grote Taalmodellen

γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

Samenvatting

Support