UCFE: Ein benutzerzentrierter Benchmark für Finanzexpertise für große Sprachmodelle
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
October 17, 2024
Autoren: Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang
cs.AI
Zusammenfassung
Dieses Papier stellt den UCFE: User-Centric Financial Expertise Benchmark vor, ein innovatives Framework, das entwickelt wurde, um die Fähigkeit großer Sprachmodelle (LLMs) zur Bewältigung komplexer finanzieller Aufgaben in der realen Welt zu bewerten. Der UCFE Benchmark verfolgt einen hybriden Ansatz, der menschliche Expertenbewertungen mit dynamischen, aufgabenbezogenen Interaktionen kombiniert, um die Komplexitäten sich entwickelnder Finanzszenarien zu simulieren. Zunächst führten wir eine Benutzerstudie mit 804 Teilnehmern durch, um ihr Feedback zu finanziellen Aufgaben zu sammeln. Basierend auf diesem Feedback erstellten wir unser Datenset, das eine breite Palette von Benutzerabsichten und Interaktionen umfasst. Dieses Datenset dient als Grundlage für die Bewertung von 12 LLM-Diensten mit der LLM-als-Richter-Methodik. Unsere Ergebnisse zeigen eine signifikante Übereinstimmung zwischen Benchmark-Ergebnissen und menschlichen Präferenzen, mit einem Pearson-Korrelationskoeffizienten von 0,78, der die Wirksamkeit des UCFE-Datensets und unseres Bewertungsansatzes bestätigt. Der UCFE Benchmark offenbart nicht nur das Potenzial von LLMs im Finanzsektor, sondern bietet auch ein robustes Framework zur Bewertung ihrer Leistung und Benutzerzufriedenheit. Das Benchmark-Datenset und der Bewertungscode sind verfügbar.
English
This paper introduces the UCFE: User-Centric Financial Expertise benchmark,
an innovative framework designed to evaluate the ability of large language
models (LLMs) to handle complex real-world financial tasks. UCFE benchmark
adopts a hybrid approach that combines human expert evaluations with dynamic,
task-specific interactions to simulate the complexities of evolving financial
scenarios. Firstly, we conducted a user study involving 804 participants,
collecting their feedback on financial tasks. Secondly, based on this feedback,
we created our dataset that encompasses a wide range of user intents and
interactions. This dataset serves as the foundation for benchmarking 12 LLM
services using the LLM-as-Judge methodology. Our results show a significant
alignment between benchmark scores and human preferences, with a Pearson
correlation coefficient of 0.78, confirming the effectiveness of the UCFE
dataset and our evaluation approach. UCFE benchmark not only reveals the
potential of LLMs in the financial sector but also provides a robust framework
for assessing their performance and user satisfaction.The benchmark dataset and
evaluation code are available.Summary
AI-Generated Summary