AV-Odyssey Bench: I Tuoi LLM Multimodali Possono Davvero Comprendere le Informazioni Audio-Visive?
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?
December 3, 2024
Autori: Kaixiong Gong, Kaituo Feng, Bohao Li, Yibing Wang, Mofan Cheng, Shijia Yang, Jiaming Han, Benyou Wang, Yutong Bai, Zhuoran Yang, Xiangyu Yue
cs.AI
Abstract
Recentemente, i modelli di linguaggio multimodali di grandi dimensioni (MLLM), come GPT-4o, Gemini 1.5 Pro e Reka Core, hanno ampliato le proprie capacità per includere le modalità visione e audio. Mentre questi modelli dimostrano prestazioni impressionanti in una vasta gamma di applicazioni audiovisive, il nostro DeafTest proposto rivela che i MLLM spesso faticano con compiti semplici che gli esseri umani trovano banali: 1) determinare quale dei due suoni è più forte, e 2) determinare quale dei due suoni ha un tono più alto. Motivati da queste osservazioni, introduciamo AV-Odyssey Bench, un benchmark audiovisivo completo progettato per valutare se quei MLLM possono veramente comprendere le informazioni audiovisive. Questo benchmark include 4.555 problemi attentamente elaborati, ognuno incorporando componenti testuali, visive e audio. Per inferire con successo le risposte, i modelli devono sfruttare efficacemente gli indizi provenienti sia dagli input visivi che da quelli audio. Per garantire una valutazione precisa e obiettiva delle risposte dei MLLM, abbiamo strutturato le domande come a scelta multipla, eliminando la necessità di valutazione umana o valutazione assistita da LLM. Valutiamo una serie di modelli closed-source e open-source e riassumiamo le osservazioni. Rivelando i limiti dei modelli attuali, miriamo a fornire utili spunti per la raccolta futura di dataset e lo sviluppo dei modelli.
English
Recently, multimodal large language models (MLLMs), such as GPT-4o, Gemini
1.5 Pro, and Reka Core, have expanded their capabilities to include vision and
audio modalities. While these models demonstrate impressive performance across
a wide range of audio-visual applications, our proposed DeafTest reveals that
MLLMs often struggle with simple tasks humans find trivial: 1) determining
which of two sounds is louder, and 2) determining which of two sounds has a
higher pitch. Motivated by these observations, we introduce AV-Odyssey Bench, a
comprehensive audio-visual benchmark designed to assess whether those MLLMs can
truly understand the audio-visual information. This benchmark encompasses 4,555
carefully crafted problems, each incorporating text, visual, and audio
components. To successfully infer answers, models must effectively leverage
clues from both visual and audio inputs. To ensure precise and objective
evaluation of MLLM responses, we have structured the questions as
multiple-choice, eliminating the need for human evaluation or LLM-assisted
assessment. We benchmark a series of closed-source and open-source models and
summarize the observations. By revealing the limitations of current models, we
aim to provide useful insight for future dataset collection and model
development.Summary
AI-Generated Summary