LUSIFER: Integrazione dello Spazio Universale del Linguaggio per Embedding Multilingue Potenziato con Grandi Modelli Linguistici
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models
January 1, 2025
Autori: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
Abstract
I recenti progressi nei modelli di linguaggio di grandi dimensioni (LLM) basati su modelli di embedding hanno stabilito nuovi benchmark di stato dell'arte per compiti di embedding di testo, in particolare nel recupero basato su vettori densi. Tuttavia, questi modelli si concentrano principalmente sull'inglese, lasciando in gran parte inesplorate le capacità di embedding multilingue. Per affrontare questa limitazione, presentiamo LUSIFER, un nuovo approccio zero-shot che adatta i modelli di embedding basati su LLM per compiti multilingue senza richiedere supervisione multilingue. L'architettura di LUSIFER combina un codificatore multilingue, che funge da apprendista universale del linguaggio, con un modello di embedding basato su LLM ottimizzato per compiti specifici di embedding. Questi componenti sono integrati in modo trasparente attraverso un insieme minimo di parametri addestrabili che agiscono come connettore, trasferendo efficacemente le capacità di comprensione del linguaggio del codificatore multilingue al modello di embedding specializzato. Inoltre, per valutare in modo esaustivo le prestazioni di embedding multilingue, introduciamo un nuovo benchmark che comprende 5 compiti di embedding principali, 123 set di dati diversi e copertura in 14 lingue. I risultati sperimentali estensivi dimostrano che LUSIFER migliora significativamente le prestazioni multilingue in vari compiti di embedding, in particolare per le lingue con risorse medie e basse, senza richiedere dati di addestramento multilingue espliciti.
English
Recent advancements in large language models (LLMs) based embedding models
have established new state-of-the-art benchmarks for text embedding tasks,
particularly in dense vector-based retrieval. However, these models
predominantly focus on English, leaving multilingual embedding capabilities
largely unexplored. To address this limitation, we present LUSIFER, a novel
zero-shot approach that adapts LLM-based embedding models for multilingual
tasks without requiring multilingual supervision. LUSIFER's architecture
combines a multilingual encoder, serving as a language-universal learner, with
an LLM-based embedding model optimized for embedding-specific tasks. These
components are seamlessly integrated through a minimal set of trainable
parameters that act as a connector, effectively transferring the multilingual
encoder's language understanding capabilities to the specialized embedding
model. Additionally, to comprehensively evaluate multilingual embedding
performance, we introduce a new benchmark encompassing 5 primary embedding
tasks, 123 diverse datasets, and coverage across 14 languages. Extensive
experimental results demonstrate that LUSIFER significantly enhances the
multilingual performance across various embedding tasks, particularly for
medium and low-resource languages, without requiring explicit multilingual
training data.Summary
AI-Generated Summary