ChatPaper.aiChatPaper

FinMTEB: 금융 대규모 텍스트 임베딩 벤치마크

FinMTEB: Finance Massive Text Embedding Benchmark

February 16, 2025
저자: Yixuan Tang, Yi Yang
cs.AI

초록

임베딩 모델은 다양한 NLP 애플리케이션에서 정보를 표현하고 검색하는 데 중요한 역할을 합니다. 최근 대규모 언어 모델(LLM)의 발전은 임베딩 모델의 성능을 더욱 향상시켰습니다. 이러한 모델들은 일반적으로 범용 데이터셋에서 벤치마킹되지만, 실제 애플리케이션에서는 도메인 특화 평가가 요구됩니다. 본 연구에서는 금융 도메인을 위해 설계된 MTEB의 특화된 대응물인 Finance Massive Text Embedding Benchmark(FinMTEB)를 소개합니다. FinMTEB는 중국어와 영어로 된 다양한 텍스트 유형(예: 금융 뉴스 기사, 기업 연간 보고서, ESG 보고서, 규제 제출 문서, 실적 발표 회의록 등)을 포함하는 7개 작업에 걸친 64개의 금융 도메인 특화 임베딩 데이터셋으로 구성됩니다. 또한, 우리는 다양한 금융 임베딩 작업을 학습하기 위해 페르소나 기반 데이터 합성 방법을 사용하여 금융에 적합한 모델인 FinPersona-E5를 개발했습니다. FinPersona-E5를 포함한 15개의 임베딩 모델에 대한 광범위한 평가를 통해 세 가지 주요 결과를 도출했습니다: (1) 범용 벤치마크에서의 성능은 금융 도메인 작업과 제한된 상관관계를 보임, (2) 도메인 적응 모델이 범용 모델을 지속적으로 능가함, (3) 놀랍게도, 단순한 Bag-of-Words(BoW) 접근 방식이 금융 의미적 텍스트 유사성(STS) 작업에서 정교한 밀집 임베딩 기법을 능가하며, 이는 현재 밀집 임베딩 기술의 한계를 강조합니다. 본 연구는 금융 NLP 애플리케이션을 위한 견고한 평가 프레임워크를 구축하고, 도메인 특화 임베딩 모델 개발에 중요한 통찰을 제공합니다.
English
Embedding models play a crucial role in representing and retrieving information across various NLP applications. Recent advances in large language models (LLMs) have further enhanced the performance of embedding models. While these models are often benchmarked on general-purpose datasets, real-world applications demand domain-specific evaluation. In this work, we introduce the Finance Massive Text Embedding Benchmark (FinMTEB), a specialized counterpart to MTEB designed for the financial domain. FinMTEB comprises 64 financial domain-specific embedding datasets across 7 tasks that cover diverse textual types in both Chinese and English, such as financial news articles, corporate annual reports, ESG reports, regulatory filings, and earnings call transcripts. We also develop a finance-adapted model, FinPersona-E5, using a persona-based data synthetic method to cover diverse financial embedding tasks for training. Through extensive evaluation of 15 embedding models, including FinPersona-E5, we show three key findings: (1) performance on general-purpose benchmarks shows limited correlation with financial domain tasks; (2) domain-adapted models consistently outperform their general-purpose counterparts; and (3) surprisingly, a simple Bag-of-Words (BoW) approach outperforms sophisticated dense embeddings in financial Semantic Textual Similarity (STS) tasks, underscoring current limitations in dense embedding techniques. Our work establishes a robust evaluation framework for financial NLP applications and provides crucial insights for developing domain-specific embedding models.

Summary

AI-Generated Summary

PDF32February 19, 2025