LUSIFER: Integrazione dello Spazio Universale del Linguaggio per Embedding Multilingue Potenziato con Grandi Modelli Linguistici

Abstract

I recenti progressi nei modelli di linguaggio di grandi dimensioni (LLM) basati su modelli di embedding hanno stabilito nuovi benchmark di stato dell'arte per compiti di embedding di testo, in particolare nel recupero basato su vettori densi. Tuttavia, questi modelli si concentrano principalmente sull'inglese, lasciando in gran parte inesplorate le capacità di embedding multilingue. Per affrontare questa limitazione, presentiamo LUSIFER, un nuovo approccio zero-shot che adatta i modelli di embedding basati su LLM per compiti multilingue senza richiedere supervisione multilingue. L'architettura di LUSIFER combina un codificatore multilingue, che funge da apprendista universale del linguaggio, con un modello di embedding basato su LLM ottimizzato per compiti specifici di embedding. Questi componenti sono integrati in modo trasparente attraverso un insieme minimo di parametri addestrabili che agiscono come connettore, trasferendo efficacemente le capacità di comprensione del linguaggio del codificatore multilingue al modello di embedding specializzato. Inoltre, per valutare in modo esaustivo le prestazioni di embedding multilingue, introduciamo un nuovo benchmark che comprende 5 compiti di embedding principali, 123 set di dati diversi e copertura in 14 lingue. I risultati sperimentali estensivi dimostrano che LUSIFER migliora significativamente le prestazioni multilingue in vari compiti di embedding, in particolare per le lingue con risorse medie e basse, senza richiedere dati di addestramento multilingue espliciti.

English

Recent advancements in large language models (LLMs) based embedding models have established new state-of-the-art benchmarks for text embedding tasks, particularly in dense vector-based retrieval. However, these models predominantly focus on English, leaving multilingual embedding capabilities largely unexplored. To address this limitation, we present LUSIFER, a novel zero-shot approach that adapts LLM-based embedding models for multilingual tasks without requiring multilingual supervision. LUSIFER's architecture combines a multilingual encoder, serving as a language-universal learner, with an LLM-based embedding model optimized for embedding-specific tasks. These components are seamlessly integrated through a minimal set of trainable parameters that act as a connector, effectively transferring the multilingual encoder's language understanding capabilities to the specialized embedding model. Additionally, to comprehensively evaluate multilingual embedding performance, we introduce a new benchmark encompassing 5 primary embedding tasks, 123 diverse datasets, and coverage across 14 languages. Extensive experimental results demonstrate that LUSIFER significantly enhances the multilingual performance across various embedding tasks, particularly for medium and low-resource languages, without requiring explicit multilingual training data.

LUSIFER: Integrazione dello Spazio Universale del Linguaggio per Embedding Multilingue Potenziato con Grandi Modelli Linguistici

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Abstract

Support