OmniEval: 금융 분야에서의 전방향 및 자동 RAG 평가 벤치마크
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain
December 17, 2024
저자: Shuting Wang, Jiejun Tan, Zhicheng Dou, Ji-Rong Wen
cs.AI
초록
대형 언어 모델 (LLM)의 전형적이고 실용적인 응용 중 하나로서, 검색 증강 생성 (RAG) 기술은 특히 LLM이 도메인별 특정 지식이 부족할 수 있는 수직 도메인에서 광범위한 관심을 받았습니다. 본 논문에서는 금융 도메인에서 옴니디렉셔널하고 자동화된 RAG 벤치마크인 OmniEval을 소개합니다. 저희의 벤치마크는 (1) 쿼리를 다섯 가지 작업 클래스와 16가지 금융 주제로 분류하는 행렬 기반 RAG 시나리오 평가 시스템을 포함한 다차원 평가 프레임워크로 특징 지어지며, 이는 다양한 쿼리 시나리오의 체계적인 평가를 이끌어 냅니다; (2) GPT-4 기반 자동 생성과 인간 주석을 결합하여 87.47%의 수용률을 달성한 다차원 평가 데이터 생성 방법을 포함합니다; (3) 검색 및 생성 성능을 모두 평가하는 다단계 평가 시스템을 포함하여 RAG 파이프라인에 대한 포괄적인 평가를 제공합니다; 그리고 (4) 규칙 기반 및 LLM 기반 평가 지표에서 파생된 견고한 평가 메트릭을 포함하여, 수동 주석 및 LLM 평가자의 지도 학습을 통해 신뢰성 있는 평가를 향상시킵니다. 저희의 실험은 OmniEval의 포괄성을 입증하며, 이는 광범위한 테스트 데이터셋을 포함하고 다양한 주제와 작업에 걸쳐 RAG 시스템의 성능 변화를 강조하여, 수직 도메인에서 능력을 향상시킬 수 있는 중요한 기회를 드러냅니다. 저희는 저희 벤치마크의 코드를 https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval}에서 오픈 소스로 제공합니다.
English
As a typical and practical application of Large Language Models (LLMs),
Retrieval-Augmented Generation (RAG) techniques have gained extensive
attention, particularly in vertical domains where LLMs may lack domain-specific
knowledge. In this paper, we introduce an omnidirectional and automatic RAG
benchmark, OmniEval, in the financial domain. Our benchmark is characterized by
its multi-dimensional evaluation framework, including (1) a matrix-based RAG
scenario evaluation system that categorizes queries into five task classes and
16 financial topics, leading to a structured assessment of diverse query
scenarios; (2) a multi-dimensional evaluation data generation approach, which
combines GPT-4-based automatic generation and human annotation, achieving an
87.47\% acceptance ratio in human evaluations on generated instances; (3) a
multi-stage evaluation system that evaluates both retrieval and generation
performance, result in a comprehensive evaluation on the RAG pipeline; and (4)
robust evaluation metrics derived from rule-based and LLM-based ones, enhancing
the reliability of assessments through manual annotations and supervised
fine-tuning of an LLM evaluator. Our experiments demonstrate the
comprehensiveness of OmniEval, which includes extensive test datasets and
highlights the performance variations of RAG systems across diverse topics and
tasks, revealing significant opportunities for RAG models to improve their
capabilities in vertical domains. We open source the code of our benchmark in
https://github.com/RUC-NLPIR/OmniEval{https://github.com/RUC-NLPIR/OmniEval}.