CLIP-MoE: 다양한 다중 업사이클링을 위한 CLIP의 전문가 혼합물 구축을 향하여
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
September 28, 2024
저자: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
cs.AI
초록
최근 몇 년간 대조적 언어-이미지 사전 학습 (CLIP)은 다중 모달 인공 지능의 중추로 자리 잡았습니다. 그러나 최근 연구에서 CLIP 인코딩 과정에서의 정보 손실이 상당하며, CLIP은 입력으로부터 대략적인 특징만 포착하는 경향이 있다는 것이 밝혀졌습니다. 이 결핍은 단일 CLIP 모델이 시각적 세부 사항이 풍부한 이미지를 처리하는 능력을 제한하는데 상당한 영향을 미칩니다. 본 연구에서는 CLIP를 위한 간단하면서도 효과적인 모델에 중립적인 전략인 Diversified Multiplet Upcycling (DMU)을 제안합니다. DMU는 밀집 사전 학습된 CLIP 체크포인트로부터 다양한 특징 공간을 포착하는 일련의 CLIP 모델을 효율적으로 파인튜닝하며, FFN(피드 포워드 네트워크)를 제외한 매개변수를 공유합니다. 이러한 모델들은 더 큰 모델 용량을 갖는 CLIP-MoE로 변환될 수 있어, 최소한의 계산 부담으로 혁신적인 성능을 보여줍니다. 우리의 최고 지식으로, Diversified Multiplet Upcycling은 CLIP 기본 모델에 희소하게 활성화된 MoE를 도입한 최초의 접근 방식입니다. 광범위한 실험은 CLIP-MoE의 혁신적인 성능을 입증하며, 제로샷 검색, 제로샷 이미지 분류 작업, 그리고 다양한 다중 모달 대형 언어 모델 (MLLM) 벤치마크에서 시각 인코더로서의 역할을 통해 하류 다중 모달 학습 시스템의 효율적이고 효과적인 발전을 위한 가치 있는 통찰을 제공합니다. 더불어, Diversified Multiplet Upcycling은 어떤 밀집 CLIP 모델이든 CLIP-MoE로 변환할 수 있어, 하류 프레임워크에서 추가적인 적응이 필요하지 않고 플러그 앤 플레이 방식으로 CLIP를 대체할 수 있도록 합니다.
English
In recent years, Contrastive Language-Image Pre-training (CLIP) has become a
cornerstone in multimodal intelligence. However, recent studies have identified
that the information loss in the CLIP encoding process is substantial, and CLIP
tends to capture only coarse-grained features from the input. This deficiency
significantly limits the ability of a single CLIP model to handle images rich
in visual detail. In this work, we propose a simple yet effective
model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU
efficiently fine-tunes a series of CLIP models that capture different feature
spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for
the Feed-Forward Network (FFN). These models can then be transformed into a
CLIP-MoE with a larger model capacity, leading to significantly enhanced
performance with minimal computational overhead. To the best of our knowledge,
Diversified Multiplet Upcycling is the first approach to introduce sparsely
activated MoE into CLIP foundation models. Extensive experiments demonstrate
the significant performance of CLIP-MoE across various zero-shot retrieval,
zero-shot image classification tasks, and downstream Multimodal Large Language
Model (MLLM) benchmarks by serving as a vision encoder. Furthermore,
Diversified Multiplet Upcycling enables the conversion of any dense CLIP model
into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner
without requiring further adaptation in downstream frameworks. Through
Diversified Multiplet Upcycling, we aim to provide valuable insights for future
research on developing more efficient and effective multimodal learning
systems.Summary
AI-Generated Summary