MMAU: un Enorme Benchmark per la Comprensione e il Ragionamento Audio Multi-Compito
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark
October 24, 2024
Autori: S Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha
cs.AI
Abstract
La capacità di comprendere l'audio - che include il linguaggio parlato, suoni non verbali e musica - è cruciale affinché gli agenti di intelligenza artificiale possano interagire in modo efficace con il mondo. Presentiamo MMAU, un nuovo benchmark progettato per valutare i modelli di comprensione audio multimodale su compiti che richiedono conoscenze di livello esperto e ragionamento complesso. MMAU comprende 10.000 clip audio accuratamente selezionate abbinate a domande e risposte in linguaggio naturale annotate da umani che spaziano dal linguaggio parlato, ai suoni ambientali e alla musica. Include domande sull'estrazione di informazioni e sul ragionamento, che richiedono ai modelli di dimostrare 27 abilità distinte attraverso compiti unici e impegnativi. A differenza dei benchmark esistenti, MMAU enfatizza la percezione avanzata e il ragionamento con conoscenze specifiche del dominio, sfidando i modelli ad affrontare compiti simili a quelli affrontati dagli esperti. Valutiamo 18 modelli audio-linguistici (Large) open-source e proprietari, dimostrando le significative sfide poste da MMAU. In particolare, anche il più avanzato Gemini Pro v1.5 raggiunge solo il 52,97% di accuratezza, e il modello open-source all'avanguardia Qwen2-Audio raggiunge solo il 52,50%, evidenziando un ampio margine di miglioramento. Crediamo che MMAU spingerà la comunità della ricerca audio e multimodale a sviluppare modelli di comprensione audio più avanzati capaci di risolvere compiti audio complessi.
English
The ability to comprehend audio--which includes speech, non-speech sounds,
and music--is crucial for AI agents to interact effectively with the world. We
present MMAU, a novel benchmark designed to evaluate multimodal audio
understanding models on tasks requiring expert-level knowledge and complex
reasoning. MMAU comprises 10k carefully curated audio clips paired with
human-annotated natural language questions and answers spanning speech,
environmental sounds, and music. It includes information extraction and
reasoning questions, requiring models to demonstrate 27 distinct skills across
unique and challenging tasks. Unlike existing benchmarks, MMAU emphasizes
advanced perception and reasoning with domain-specific knowledge, challenging
models to tackle tasks akin to those faced by experts. We assess 18 open-source
and proprietary (Large) Audio-Language Models, demonstrating the significant
challenges posed by MMAU. Notably, even the most advanced Gemini Pro v1.5
achieves only 52.97% accuracy, and the state-of-the-art open-source Qwen2-Audio
achieves only 52.50%, highlighting considerable room for improvement. We
believe MMAU will drive the audio and multimodal research community to develop
more advanced audio understanding models capable of solving complex audio
tasks.Summary
AI-Generated Summary