FinAudio: Un Benchmark per Modelli Linguistici di Grande Scala nell'Elaborazione Audio per Applicazioni Finanziarie
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications
March 26, 2025
Autori: Yupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
cs.AI
Abstract
I modelli linguistici di grandi dimensioni per l'audio (AudioLLMs) hanno ricevuto un'attenzione diffusa e hanno migliorato significativamente le prestazioni in compiti audio come la conversazione, la comprensione audio e il riconoscimento automatico del parlato (ASR). Nonostante questi progressi, manca un benchmark per valutare gli AudioLLM in scenari finanziari, dove i dati audio, come le conferenze sugli utili e i discorsi dei CEO, sono risorse cruciali per l'analisi finanziaria e le decisioni di investimento. In questo articolo, introduciamo FinAudio, il primo benchmark progettato per valutare le capacità degli AudioLLM nel dominio finanziario. Definiamo innanzitutto tre compiti basati sulle caratteristiche uniche del settore finanziario: 1) ASR per audio finanziari brevi, 2) ASR per audio finanziari lunghi e 3) riassunto di audio finanziari lunghi. Successivamente, curiamo due dataset di audio brevi e due di audio lunghi, rispettivamente, e sviluppiamo un nuovo dataset per il riassunto di audio finanziari, che costituisce il benchmark FinAudio. Valutiamo quindi sette AudioLLM diffusi su FinAudio. La nostra valutazione rivela i limiti degli AudioLLM esistenti nel dominio finanziario e offre spunti per il loro miglioramento. Tutti i dataset e i codici saranno rilasciati.
English
Audio Large Language Models (AudioLLMs) have received widespread attention
and have significantly improved performance on audio tasks such as
conversation, audio understanding, and automatic speech recognition (ASR).
Despite these advancements, there is an absence of a benchmark for assessing
AudioLLMs in financial scenarios, where audio data, such as earnings conference
calls and CEO speeches, are crucial resources for financial analysis and
investment decisions. In this paper, we introduce FinAudio, the first
benchmark designed to evaluate the capacity of AudioLLMs in the financial
domain. We first define three tasks based on the unique characteristics of the
financial domain: 1) ASR for short financial audio, 2) ASR for long financial
audio, and 3) summarization of long financial audio. Then, we curate two short
and two long audio datasets, respectively, and develop a novel dataset for
financial audio summarization, comprising the FinAudio benchmark.
Then, we evaluate seven prevalent AudioLLMs on FinAudio. Our
evaluation reveals the limitations of existing AudioLLMs in the financial
domain and offers insights for improving AudioLLMs. All datasets and codes will
be released.Summary
AI-Generated Summary