FinAudio: Ein Benchmark für Audio-Großsprachmodelle in finanziellen Anwendungen
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
March 26, 2025
Autoren: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
cs.AI
Zusammenfassung
Audio Large Language Models (AudioLLMs) haben große Aufmerksamkeit erhalten und die Leistung bei Audioaufgaben wie Konversation, Audioverständnis und automatischer Spracherkennung (ASR) erheblich verbessert. Trotz dieser Fortschritte fehlt ein Benchmark zur Bewertung von AudioLLMs in finanziellen Szenarien, in denen Audiodaten wie Ergebnispräsentationen und CEO-Reden entscheidende Ressourcen für Finanzanalysen und Investitionsentscheidungen sind. In diesem Artikel stellen wir FinAudio vor, den ersten Benchmark, der entwickelt wurde, um die Fähigkeiten von AudioLLMs im Finanzbereich zu bewerten. Wir definieren zunächst drei Aufgaben basierend auf den besonderen Merkmalen des Finanzbereichs: 1) ASR für kurze finanzbezogene Audiodaten, 2) ASR für lange finanzbezogene Audiodaten und 3) Zusammenfassung langer finanzbezogener Audiodaten. Anschließend stellen wir jeweils zwei kurze und zwei lange Audio-Datensätze zusammen und entwickeln einen neuen Datensatz für die Zusammenfassung finanzbezogener Audiodaten, der den FinAudio-Benchmark bildet. Danach bewerten wir sieben verbreitete AudioLLMs anhand von FinAudio. Unsere Bewertung zeigt die Grenzen bestehender AudioLLMs im Finanzbereich auf und bietet Einblicke zur Verbesserung von AudioLLMs. Alle Datensätze und Codes werden veröffentlicht.
English
Audio Large Language Models (AudioLLMs) have received widespread attention
and have significantly improved performance on audio tasks such as
conversation, audio understanding, and automatic speech recognition (ASR).
Despite these advancements, there is an absence of a benchmark for assessing
AudioLLMs in financial scenarios, where audio data, such as earnings conference
calls and CEO speeches, are crucial resources for financial analysis and
investment decisions. In this paper, we introduce FinAudio, the first
benchmark designed to evaluate the capacity of AudioLLMs in the financial
domain. We first define three tasks based on the unique characteristics of the
financial domain: 1) ASR for short financial audio, 2) ASR for long financial
audio, and 3) summarization of long financial audio. Then, we curate two short
and two long audio datasets, respectively, and develop a novel dataset for
financial audio summarization, comprising the FinAudio benchmark.
Then, we evaluate seven prevalent AudioLLMs on FinAudio. Our
evaluation reveals the limitations of existing AudioLLMs in the financial
domain and offers insights for improving AudioLLMs. All datasets and codes will
be released.Summary
AI-Generated Summary