γ-MoD: 다중 모달 대규모 언어 모델을 위한 깊이 혼합 적응 탐구
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models
October 17, 2024
저자: Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji
cs.AI
초록
다중 모달 대형 언어 모델(MLLMs)의 중요한 발전에도 불구하고, 그들의 높은 계산 비용은 현실 세계 배치에 대한 장벽으로 남아 있습니다. 자연어 처리에서 깊이의 혼합(MoDs)에서 영감을 받아, 우리는 이 한계를 "활성화된 토큰"의 관점에서 해결하고자 합니다. 우리의 주요 통찰력은 대부분의 토큰이 계층 계산에 불필요하다면, MoD 계층을 통해 직접 건너뛸 수 있다는 것입니다. 그러나 MLLMs의 밀집 계층을 직접 MoD 계층으로 변환하면 상당한 성능 저하가 발생합니다. 이 문제를 해결하기 위해, 우리는 기존 MLLMs를 위한 혁신적인 MoD 적응 전략인 gamma-MoD를 제안합니다. gamma-MoD에서는 MoD를 MLLM에 배치하는 데 이끄는 새로운 측정 항목으로서 어텐션 맵의 순위(ARank)가 제안됩니다. ARank를 통해 어떤 계층이 불필요하며 MoD 계층으로 대체되어야 하는지 효과적으로 식별할 수 있습니다. ARank를 기반으로, MLLM의 계산 희소성을 극대화하면서 성능을 유지하기 위해 공유 비전-언어 라우터와 마스킹된 라우팅 학습이라는 두 가지 혁신적인 설계를 제안합니다. 이러한 설계를 통해 MLLM의 90% 이상의 밀집 계층을 효과적으로 MoD로 변환할 수 있습니다. 우리의 방법을 검증하기 위해, 세 가지 인기 있는 MLLMs에 이를 적용하고 9개의 벤치마크 데이터셋에서 광범위한 실험을 수행합니다. 실험 결과는 기존 MLLMs에 대한 gamma-MoD의 상당한 효율성 이점을 검증할 뿐만 아니라 다양한 MLLMs에 대한 일반화 능력을 확인합니다. 예를 들어, 성능 감소가 -1.5%인 경우, gamma-MoD는 LLaVA-HR의 훈련 및 추론 시간을 각각 31.0% 및 53.2% 줄일 수 있습니다.
English
Despite the significant progress in multimodal large language models (MLLMs),
their high computational cost remains a barrier to real-world deployment.
Inspired by the mixture of depths (MoDs) in natural language processing, we aim
to address this limitation from the perspective of ``activated tokens''. Our
key insight is that if most tokens are redundant for the layer computation,
then can be skipped directly via the MoD layer. However, directly converting
the dense layers of MLLMs to MoD layers leads to substantial performance
degradation. To address this issue, we propose an innovative MoD adaptation
strategy for existing MLLMs called gamma-MoD. In gamma-MoD, a novel
metric is proposed to guide the deployment of MoDs in the MLLM, namely rank of
attention maps (ARank). Through ARank, we can effectively identify which layer
is redundant and should be replaced with the MoD layer. Based on ARank, we
further propose two novel designs to maximize the computational sparsity of
MLLM while maintaining its performance, namely shared vision-language router
and masked routing learning. With these designs, more than 90% dense layers of
the MLLM can be effectively converted to the MoD ones. To validate our method,
we apply it to three popular MLLMs, and conduct extensive experiments on 9
benchmark datasets. Experimental results not only validate the significant
efficiency benefit of gamma-MoD to existing MLLMs but also confirm its
generalization ability on various MLLMs. For example, with a minor performance
drop, i.e., -1.5%, gamma-MoD can reduce the training and inference time of
LLaVA-HR by 31.0% and 53.2%, respectively.Summary
AI-Generated Summary