UCFE : Un référentiel d'expertise financière centré sur l'utilisateur pour les grands modèles de langage.
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
October 17, 2024
Auteurs: Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang
cs.AI
Résumé
Cet article présente l'UCFE : User-Centric Financial Expertise benchmark, un cadre novateur conçu pour évaluer la capacité des grands modèles de langage (LLM) à traiter des tâches financières réelles complexes. Le benchmark UCFE adopte une approche hybride qui combine les évaluations d'experts humains avec des interactions dynamiques spécifiques aux tâches pour simuler les complexités des scénarios financiers évolutifs. Tout d'abord, nous avons mené une étude utilisateur impliquant 804 participants, recueillant leurs retours sur des tâches financières. Ensuite, basé sur ces retours, nous avons créé notre ensemble de données qui englobe une large gamme d'intentions et d'interactions utilisateur. Cet ensemble de données sert de base pour évaluer 12 services LLM en utilisant la méthodologie LLM-en-Juge. Nos résultats montrent un alignement significatif entre les scores du benchmark et les préférences humaines, avec un coefficient de corrélation de Pearson de 0,78, confirmant l'efficacité de l'ensemble de données UCFE et de notre approche d'évaluation. Le benchmark UCFE révèle non seulement le potentiel des LLM dans le secteur financier, mais fournit également un cadre robuste pour évaluer leurs performances et la satisfaction des utilisateurs. L'ensemble de données du benchmark et le code d'évaluation sont disponibles.
English
This paper introduces the UCFE: User-Centric Financial Expertise benchmark,
an innovative framework designed to evaluate the ability of large language
models (LLMs) to handle complex real-world financial tasks. UCFE benchmark
adopts a hybrid approach that combines human expert evaluations with dynamic,
task-specific interactions to simulate the complexities of evolving financial
scenarios. Firstly, we conducted a user study involving 804 participants,
collecting their feedback on financial tasks. Secondly, based on this feedback,
we created our dataset that encompasses a wide range of user intents and
interactions. This dataset serves as the foundation for benchmarking 12 LLM
services using the LLM-as-Judge methodology. Our results show a significant
alignment between benchmark scores and human preferences, with a Pearson
correlation coefficient of 0.78, confirming the effectiveness of the UCFE
dataset and our evaluation approach. UCFE benchmark not only reveals the
potential of LLMs in the financial sector but also provides a robust framework
for assessing their performance and user satisfaction.The benchmark dataset and
evaluation code are available.Summary
AI-Generated Summary