당신의 전문가 혼합 LLM은 사실 무료로 제공되는 임베딩 모델입니다.
Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
October 14, 2024
저자: Ziyue Li, Tianyi Zhou
cs.AI
초록
대형 언어 모델(LLMs)은 생성 작업에서 뛰어나지만, 디코더 전용 아키텍처는 추가적인 표현 미세조정이 적용되지 않는 한 임베딩 모델로서의 잠재력을 종종 제한합니다. 이것은 그들의 일반주의 주장과 모순되는 것일까요? 이 질문에 대한 답변을 얻기 위해, Mixture-of-Experts(MoE) LLMs를 자세히 살펴보겠습니다. 우리의 연구는 MoE LLMs의 전문가 라우터가 미세조정이 필요 없이 다양한 임베딩 중심 작업에서 유망한 성능을 발휘할 수 있는 즉시 사용 가능한 임베딩 모델로 작용할 수 있다는 것을 보여줍니다. 게다가, 우리의 철저한 분석은 MoE 라우팅 가중치(RW)가 LLMs의 숨겨진 상태(HS)와 보완적인 관계에 있음을 보여줍니다. HS와 비교했을 때, RW는 프롬프트 선택에 더 견고하며 고수준 의미에 초점을 맞춥니다. 분석에 영감을 받아, 우리는 RW와 HS를 결합한 MoEE를 제안합니다. 이는 각각을 사용하는 것보다 더 나은 성능을 달성합니다. RW와 HS의 결합 및 프롬프팅 전략 탐색을 통해 몇 가지 혁신적인 통찰을 얻었습니다. 예를 들어, RW와 HS 유사성의 가중 합이 그들의 연결보다 우월함을 입증했습니다. 우리의 실험은 Massive Text Embedding Benchmark(MTEB)의 20개 데이터셋을 사용하여 6개의 임베딩 작업에서 수행되었습니다. 결과는 MoEE가 추가적인 미세조정 없이 LLM 기반 임베딩에 가져다주는 중요한 개선을 보여줍니다.
English
While large language models (LLMs) excel on generation tasks, their
decoder-only architecture often limits their potential as embedding models if
no further representation finetuning is applied. Does this contradict their
claim of generalists? To answer the question, we take a closer look at
Mixture-of-Experts (MoE) LLMs. Our study shows that the expert routers in MoE
LLMs can serve as an off-the-shelf embedding model with promising performance
on a diverse class of embedding-focused tasks, without requiring any
finetuning. Moreover, our extensive analysis shows that the MoE routing weights
(RW) is complementary to the hidden state (HS) of LLMs, a widely-used
embedding. Compared to HS, we find that RW is more robust to the choice of
prompts and focuses on high-level semantics. Motivated by the analysis, we
propose MoEE combining RW and HS, which achieves better performance than using
either separately. Our exploration of their combination and prompting strategy
shed several novel insights, e.g., a weighted sum of RW and HS similarities
outperforms the similarity on their concatenation. Our experiments are
conducted on 6 embedding tasks with 20 datasets from the Massive Text Embedding
Benchmark (MTEB). The results demonstrate the significant improvement brought
by MoEE to LLM-based embedding without further finetuning.Summary
AI-Generated Summary