LUSIFER: 大規模言語モデルを用いた多言語埋め込みの強化のための言語ユニバーサル空間統合
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models
January 1, 2025
著者: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
要旨
最近の大規模言語モデル(LLM)ベースの埋め込みモデルの進歩により、特に密なベクトルベースの検索において、テキスト埋め込みタスクの最新基準が確立されました。しかしながら、これらのモデルは主に英語に焦点を当てており、多言語埋め込み機能はほとんど未開拓のままです。この制限に対処するために、我々はLUSIFERを提案します。これは、多言語の監督を必要とせずに、LLMベースの埋め込みモデルを多言語タスクに適応させる新しいゼロショットアプローチです。LUSIFERのアーキテクチャは、言語普遍的な学習者として機能する多言語エンコーダと、埋め込み特定のタスクに最適化されたLLMベースの埋め込みモデルを組み合わせています。これらのコンポーネントは、多言語エンコーダの言語理解能力を専門的な埋め込みモデルに効果的に転送するための、最小限の訓練可能なパラメータを介してシームレスに統合されています。さらに、多言語埋め込みのパフォーマンスを包括的に評価するために、5つの主要な埋め込みタスク、123の異なるデータセット、および14の言語にまたがるカバレッジを含む新しいベンチマークを導入しています。幅広い実験結果が示すところによれば、LUSIFERは、明示的な多言語トレーニングデータを必要とせずに、中小規模の言語において特に、さまざまな埋め込みタスクにおける多言語パフォーマンスを著しく向上させることができます。
English
Recent advancements in large language models (LLMs) based embedding models
have established new state-of-the-art benchmarks for text embedding tasks,
particularly in dense vector-based retrieval. However, these models
predominantly focus on English, leaving multilingual embedding capabilities
largely unexplored. To address this limitation, we present LUSIFER, a novel
zero-shot approach that adapts LLM-based embedding models for multilingual
tasks without requiring multilingual supervision. LUSIFER's architecture
combines a multilingual encoder, serving as a language-universal learner, with
an LLM-based embedding model optimized for embedding-specific tasks. These
components are seamlessly integrated through a minimal set of trainable
parameters that act as a connector, effectively transferring the multilingual
encoder's language understanding capabilities to the specialized embedding
model. Additionally, to comprehensively evaluate multilingual embedding
performance, we introduce a new benchmark encompassing 5 primary embedding
tasks, 123 diverse datasets, and coverage across 14 languages. Extensive
experimental results demonstrate that LUSIFER significantly enhances the
multilingual performance across various embedding tasks, particularly for
medium and low-resource languages, without requiring explicit multilingual
training data.Summary
AI-Generated Summary