ChatPaper.aiChatPaper

jina-embeddings-v3: 작업 LoRA를 활용한 다국어 임베딩

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

September 16, 2024
저자: Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Andreas Koukounas, Nan Wang, Han Xiao
cs.AI

초록

우리는 570백만 개의 매개변수를 가진 새로운 텍스트 임베딩 모델인 jina-embeddings-v3를 소개합니다. 이 모델은 다국어 데이터 및 긴 문맥 검색 작업에서 최첨단 성능을 달성하며, 최대 8192 토큰까지의 문맥 길이를 지원합니다. 이 모델에는 쿼리-문서 검색, 클러스터링, 분류 및 텍스트 매칭을 위한 고품질 임베딩을 생성하기 위한 일련의 작업별 저랭크 적응 (LoRA) 어댑터가 포함되어 있습니다. 또한 Matryoshka Representation Learning이 훈련 과정에 통합되어 있어 임베딩 차원의 유연한 절단을 허용하면서 성능을 저해하지 않습니다. MTEB 벤치마크 평가 결과, jina-embeddings-v3가 영어 작업에서 최신 OpenAI 및 Cohere의 임베딩을 능가하면서, 모든 다국어 작업에서 multilingual-e5-large-instruct보다 우수한 성능을 달성한다는 것을 보여줍니다.
English
We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Additionally, Matryoshka Representation Learning is integrated into the training process, allowing flexible truncation of embedding dimensions without compromising performance. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks.

Summary

AI-Generated Summary

PDF326November 16, 2024