LUSIFER: 大規模言語モデルを用いた多言語埋め込みの強化のための言語ユニバーサル空間統合

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

January 1, 2025
著者: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen
cs.AI

要旨

最近の大規模言語モデル(LLM)ベースの埋め込みモデルの進歩により、特に密なベクトルベースの検索において、テキスト埋め込みタスクの最新基準が確立されました。しかしながら、これらのモデルは主に英語に焦点を当てており、多言語埋め込み機能はほとんど未開拓のままです。この制限に対処するために、我々はLUSIFERを提案します。これは、多言語の監督を必要とせずに、LLMベースの埋め込みモデルを多言語タスクに適応させる新しいゼロショットアプローチです。LUSIFERのアーキテクチャは、言語普遍的な学習者として機能する多言語エンコーダと、埋め込み特定のタスクに最適化されたLLMベースの埋め込みモデルを組み合わせています。これらのコンポーネントは、多言語エンコーダの言語理解能力を専門的な埋め込みモデルに効果的に転送するための、最小限の訓練可能なパラメータを介してシームレスに統合されています。さらに、多言語埋め込みのパフォーマンスを包括的に評価するために、5つの主要な埋め込みタスク、123の異なるデータセット、および14の言語にまたがるカバレッジを含む新しいベンチマークを導入しています。幅広い実験結果が示すところによれば、LUSIFERは、明示的な多言語トレーニングデータを必要とせずに、中小規模の言語において特に、さまざまな埋め込みタスクにおける多言語パフォーマンスを著しく向上させることができます。
English
Recent advancements in large language models (LLMs) based embedding models have established new state-of-the-art benchmarks for text embedding tasks, particularly in dense vector-based retrieval. However, these models predominantly focus on English, leaving multilingual embedding capabilities largely unexplored. To address this limitation, we present LUSIFER, a novel zero-shot approach that adapts LLM-based embedding models for multilingual tasks without requiring multilingual supervision. LUSIFER's architecture combines a multilingual encoder, serving as a language-universal learner, with an LLM-based embedding model optimized for embedding-specific tasks. These components are seamlessly integrated through a minimal set of trainable parameters that act as a connector, effectively transferring the multilingual encoder's language understanding capabilities to the specialized embedding model. Additionally, to comprehensively evaluate multilingual embedding performance, we introduce a new benchmark encompassing 5 primary embedding tasks, 123 diverse datasets, and coverage across 14 languages. Extensive experimental results demonstrate that LUSIFER significantly enhances the multilingual performance across various embedding tasks, particularly for medium and low-resource languages, without requiring explicit multilingual training data.

Summary

AI-Generated Summary

PDF122January 6, 2025