γ-MoD: Verkenning van Mixture-of-Depth Adaptatie voor Multimodale Grote Taalmodellen
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models
October 17, 2024
Auteurs: Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji
cs.AI
Samenvatting
Ondanks de aanzienlijke vooruitgang in multimodale grote taalmodellen (MLLM's) blijft hun hoge rekenkundige kosten een belemmering vormen voor implementatie in de echte wereld. Geïnspireerd door de menging van dieptes (MoDs) in natuurlijke taalverwerking, streven we ernaar om deze beperking te benaderen vanuit het perspectief van "geactiveerde tokens". Ons belangrijkste inzicht is dat als de meeste tokens overbodig zijn voor de laagberekening, ze direct kunnen worden overgeslagen via de MoD-laag. Echter, het direct omzetten van de dichte lagen van MLLM's naar MoD-lagen leidt tot aanzienlijke prestatievermindering. Om dit probleem aan te pakken, stellen we een innovatieve MoD-aanpassingsstrategie voor bestaande MLLM's voor, genaamd gamma-MoD. In gamma-MoD wordt een nieuwe metriek voorgesteld om de implementatie van MoDs in de MLLM te sturen, namelijk de rangorde van aandachtskaarten (ARank). Via ARank kunnen we effectief identificeren welke laag overbodig is en moet worden vervangen door de MoD-laag. Op basis van ARank stellen we vervolgens twee nieuwe ontwerpen voor om de rekenkundige spaarzaamheid van MLLM te maximaliseren terwijl de prestaties behouden blijven, namelijk gedeelde visie-taalrouter en gemaskeerd routeringsleren. Met deze ontwerpen kunnen meer dan 90% van de dichte lagen van de MLLM effectief worden omgezet naar de MoD-lagen. Om onze methode te valideren, passen we deze toe op drie populaire MLLM's en voeren uitgebreide experimenten uit op 9 benchmarkdatasets. Experimentele resultaten bevestigen niet alleen het aanzienlijke efficiëntievoordeel van gamma-MoD voor bestaande MLLM's, maar bevestigen ook de generalisatiecapaciteit ervan op verschillende MLLM's. Bijvoorbeeld, met een kleine prestatiedaling, d.w.z. -1,5%, kan gamma-MoD de trainings- en inferentietijd van LLaVA-HR respectievelijk met 31,0% en 53,2% verminderen.
English
Despite the significant progress in multimodal large language models (MLLMs),
their high computational cost remains a barrier to real-world deployment.
Inspired by the mixture of depths (MoDs) in natural language processing, we aim
to address this limitation from the perspective of ``activated tokens''. Our
key insight is that if most tokens are redundant for the layer computation,
then can be skipped directly via the MoD layer. However, directly converting
the dense layers of MLLMs to MoD layers leads to substantial performance
degradation. To address this issue, we propose an innovative MoD adaptation
strategy for existing MLLMs called gamma-MoD. In gamma-MoD, a novel
metric is proposed to guide the deployment of MoDs in the MLLM, namely rank of
attention maps (ARank). Through ARank, we can effectively identify which layer
is redundant and should be replaced with the MoD layer. Based on ARank, we
further propose two novel designs to maximize the computational sparsity of
MLLM while maintaining its performance, namely shared vision-language router
and masked routing learning. With these designs, more than 90% dense layers of
the MLLM can be effectively converted to the MoD ones. To validate our method,
we apply it to three popular MLLMs, and conduct extensive experiments on 9
benchmark datasets. Experimental results not only validate the significant
efficiency benefit of gamma-MoD to existing MLLMs but also confirm its
generalization ability on various MLLMs. For example, with a minor performance
drop, i.e., -1.5%, gamma-MoD can reduce the training and inference time of
LLaVA-HR by 31.0% and 53.2%, respectively.Summary
AI-Generated Summary