jina-embeddings-v3: 작업 LoRA를 활용한 다국어 임베딩
jina-embeddings-v3: Multilingual Embeddings With Task LoRA
September 16, 2024
저자: Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao
cs.AI
초록
우리는 570백만 개의 매개변수를 가진 새로운 텍스트 임베딩 모델인 jina-embeddings-v3를 소개합니다. 이 모델은 다국어 데이터 및 긴 문맥 검색 작업에서 최첨단 성능을 달성하며, 최대 8192 토큰까지의 문맥 길이를 지원합니다. 이 모델에는 쿼리-문서 검색, 클러스터링, 분류 및 텍스트 매칭을 위한 고품질 임베딩을 생성하기 위한 일련의 작업별 저랭크 적응 (LoRA) 어댑터가 포함되어 있습니다. 또한 Matryoshka Representation Learning이 훈련 과정에 통합되어 있어 임베딩 차원의 유연한 절단을 허용하면서 성능을 저해하지 않습니다. MTEB 벤치마크 평가 결과, jina-embeddings-v3가 영어 작업에서 최신 OpenAI 및 Cohere의 임베딩을 능가하면서, 모든 다국어 작업에서 multilingual-e5-large-instruct보다 우수한 성능을 달성한다는 것을 보여줍니다.
English
We introduce jina-embeddings-v3, a novel text embedding model with 570
million parameters, achieves state-of-the-art performance on multilingual data
and long-context retrieval tasks, supporting context lengths of up to 8192
tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA)
adapters to generate high-quality embeddings for query-document retrieval,
clustering, classification, and text matching. Additionally, Matryoshka
Representation Learning is integrated into the training process, allowing
flexible truncation of embedding dimensions without compromising performance.
Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the
latest proprietary embeddings from OpenAI and Cohere on English tasks, while
achieving superior performance compared to multilingual-e5-large-instruct
across all multilingual tasks.Summary
AI-Generated Summary