대규모 언어 모델을 위한 사용자 중심 금융 전문성 벤치마크인 UCFE
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
October 17, 2024
저자: Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang
cs.AI
초록
본 논문은 UCFE: 사용자 중심 금융 전문성 벤치마크를 소개합니다. 이 혁신적인 프레임워크는 대형 언어 모델(Large Language Models, LLMs)의 복잡한 실제 금융 작업 처리 능력을 평가하기 위해 설계되었습니다. UCFE 벤치마크는 인간 전문가 평가를 결합하고 동적하며 작업 특정 상호작용을 사용하여 진화하는 금융 시나리오의 복잡성을 시뮬레이트하는 하이브리드 접근 방식을 채택합니다. 우선, 804명의 참가자를 대상으로 사용자 연구를 실시하여 그들의 금융 작업에 대한 피드백을 수집했습니다. 둘째, 이 피드백을 기반으로 다양한 사용자 의도와 상호작용을 포괄하는 데이터셋을 작성했습니다. 이 데이터셋은 LLM을 판사로 사용하는 방법을 사용하여 12개의 LLM 서비스를 벤치마킹하는 기반 자료로 사용되었습니다. 결과는 벤치마크 점수와 인간 선호도 간에 상당한 일치를 보여주며, Pearson 상관 계수가 0.78인 것으로 나타났으며, UCFE 데이터셋과 평가 접근 방식의 효과를 확인했습니다. UCFE 벤치마크는 금융 분야에서 LLM의 잠재력을 드러내는 데 그치지 않고, 그들의 성능과 사용자 만족도를 평가하기 위한 견고한 프레임워크를 제공합니다. 벤치마크 데이터셋과 평가 코드는 제공됩니다.
English
This paper introduces the UCFE: User-Centric Financial Expertise benchmark,
an innovative framework designed to evaluate the ability of large language
models (LLMs) to handle complex real-world financial tasks. UCFE benchmark
adopts a hybrid approach that combines human expert evaluations with dynamic,
task-specific interactions to simulate the complexities of evolving financial
scenarios. Firstly, we conducted a user study involving 804 participants,
collecting their feedback on financial tasks. Secondly, based on this feedback,
we created our dataset that encompasses a wide range of user intents and
interactions. This dataset serves as the foundation for benchmarking 12 LLM
services using the LLM-as-Judge methodology. Our results show a significant
alignment between benchmark scores and human preferences, with a Pearson
correlation coefficient of 0.78, confirming the effectiveness of the UCFE
dataset and our evaluation approach. UCFE benchmark not only reveals the
potential of LLMs in the financial sector but also provides a robust framework
for assessing their performance and user satisfaction.The benchmark dataset and
evaluation code are available.Summary
AI-Generated Summary