UCFE: Een Gebruikersgerichte Financiële Expertise Benchmark voor Grote Taalmodellen
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
October 17, 2024
Auteurs: Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang
cs.AI
Samenvatting
Dit artikel introduceert de UCFE: User-Centric Financial Expertise benchmark, een innovatief kader ontworpen om de capaciteit van grote taalmodellen (LLMs) te evalueren om complexe financiële taken in de echte wereld aan te kunnen. De UCFE benchmark hanteert een hybride benadering die menselijke expertevaluaties combineert met dynamische, taakspecifieke interacties om de complexiteit van evoluerende financiële scenario's te simuleren. Allereerst hebben we een gebruikersstudie uitgevoerd met 804 deelnemers, waarbij we hun feedback over financiële taken hebben verzameld. Ten tweede hebben we op basis van deze feedback ons dataset gecreëerd dat een breed scala aan gebruikersintenties en interacties omvat. Deze dataset vormt de basis voor het benchmarken van 12 LLM-services met behulp van de LLM-als-Rechter methodologie. Onze resultaten tonen een significante overeenkomst tussen benchmark scores en menselijke voorkeuren, met een Pearson correlatiecoëfficiënt van 0.78, wat de effectiviteit van het UCFE dataset en onze evaluatiebenadering bevestigt. De UCFE benchmark onthult niet alleen het potentieel van LLMs in de financiële sector, maar biedt ook een robuust kader voor het beoordelen van hun prestaties en gebruikerstevredenheid. Het benchmark dataset en evaluatiecode zijn beschikbaar.
English
This paper introduces the UCFE: User-Centric Financial Expertise benchmark,
an innovative framework designed to evaluate the ability of large language
models (LLMs) to handle complex real-world financial tasks. UCFE benchmark
adopts a hybrid approach that combines human expert evaluations with dynamic,
task-specific interactions to simulate the complexities of evolving financial
scenarios. Firstly, we conducted a user study involving 804 participants,
collecting their feedback on financial tasks. Secondly, based on this feedback,
we created our dataset that encompasses a wide range of user intents and
interactions. This dataset serves as the foundation for benchmarking 12 LLM
services using the LLM-as-Judge methodology. Our results show a significant
alignment between benchmark scores and human preferences, with a Pearson
correlation coefficient of 0.78, confirming the effectiveness of the UCFE
dataset and our evaluation approach. UCFE benchmark not only reveals the
potential of LLMs in the financial sector but also provides a robust framework
for assessing their performance and user satisfaction.The benchmark dataset and
evaluation code are available.Summary
AI-Generated Summary