LUSIFER: Integração do Espaço Universal de Linguagem para Melhoria de Incorporações Multilíngues com Modelos de Linguagem Grandes
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models
January 1, 2025
Autores: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
Resumo
Avanços recentes em modelos de incorporação baseados em grandes modelos de linguagem (LLMs) estabeleceram novos benchmarks de última geração para tarefas de incorporação de texto, especialmente em recuperação baseada em vetores densos. No entanto, esses modelos focam predominantemente no inglês, deixando as capacidades de incorporação multilíngue amplamente inexploradas. Para abordar essa limitação, apresentamos LUSIFER, uma abordagem inovadora de zero-shot que adapta modelos de incorporação baseados em LLM para tarefas multilíngues sem exigir supervisão multilíngue. A arquitetura do LUSIFER combina um codificador multilíngue, atuando como um aprendiz universal de idiomas, com um modelo de incorporação baseado em LLM otimizado para tarefas específicas de incorporação. Esses componentes são integrados de forma transparente por meio de um conjunto mínimo de parâmetros treináveis que funcionam como um conector, transferindo efetivamente as capacidades de compreensão de idiomas do codificador multilíngue para o modelo de incorporação especializado. Além disso, para avaliar abrangentemente o desempenho de incorporação multilíngue, introduzimos um novo benchmark que abrange 5 tarefas de incorporação primárias, 123 conjuntos de dados diversos e cobertura em 14 idiomas. Resultados experimentais extensivos demonstram que o LUSIFER melhora significativamente o desempenho multilíngue em várias tarefas de incorporação, especialmente para idiomas de recursos médios e baixos, sem exigir dados de treinamento multilíngue explícitos.
English
Recent advancements in large language models (LLMs) based embedding models
have established new state-of-the-art benchmarks for text embedding tasks,
particularly in dense vector-based retrieval. However, these models
predominantly focus on English, leaving multilingual embedding capabilities
largely unexplored. To address this limitation, we present LUSIFER, a novel
zero-shot approach that adapts LLM-based embedding models for multilingual
tasks without requiring multilingual supervision. LUSIFER's architecture
combines a multilingual encoder, serving as a language-universal learner, with
an LLM-based embedding model optimized for embedding-specific tasks. These
components are seamlessly integrated through a minimal set of trainable
parameters that act as a connector, effectively transferring the multilingual
encoder's language understanding capabilities to the specialized embedding
model. Additionally, to comprehensively evaluate multilingual embedding
performance, we introduce a new benchmark encompassing 5 primary embedding
tasks, 123 diverse datasets, and coverage across 14 languages. Extensive
experimental results demonstrate that LUSIFER significantly enhances the
multilingual performance across various embedding tasks, particularly for
medium and low-resource languages, without requiring explicit multilingual
training data.Summary
AI-Generated Summary