MMAU: Een Omvangrijke Multi-Task Audio Begrip- en Redeneerbenchmark

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

October 24, 2024
Auteurs: S Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha
cs.AI

Samenvatting

Het vermogen om audio te begrijpen - waaronder spraak, niet-spraak geluiden en muziek - is cruciaal voor AI-agenten om effectief te kunnen interageren met de wereld. We presenteren MMAU, een nieuw benchmark ontworpen om multimodale audio begripmodellen te evalueren op taken die expertniveau kennis en complex redeneren vereisen. MMAU bestaat uit 10k zorgvuldig samengestelde audioclips gekoppeld aan door mensen geannoteerde natuurlijke taalvragen en antwoorden die spraak, omgevingsgeluiden en muziek beslaan. Het omvat vragen over informatie-extractie en redeneren, waarbij modellen 27 verschillende vaardigheden moeten aantonen over unieke en uitdagende taken. In tegenstelling tot bestaande benchmarks benadrukt MMAU geavanceerde perceptie en redeneren met domeinspecifieke kennis, waarbij modellen worden uitgedaagd om taken aan te pakken vergelijkbaar met die waarmee experts worden geconfronteerd. We beoordelen 18 open-source en eigen (Grote) Audio-Taalmodellen, waarbij de aanzienlijke uitdagingen van MMAU worden aangetoond. Opmerkelijk genoeg behaalt zelfs het meest geavanceerde Gemini Pro v1.5 slechts 52,97% nauwkeurigheid, en het toonaangevende open-source Qwen2-Audio behaalt slechts 52,50%, waarbij aanzienlijke ruimte voor verbetering wordt benadrukt. We geloven dat MMAU de audio- en multimodale onderzoeksgemeenschap zal stimuleren om geavanceerdere audiobegripmodellen te ontwikkelen die in staat zijn complexe audio taken op te lossen.
English
The ability to comprehend audio--which includes speech, non-speech sounds, and music--is crucial for AI agents to interact effectively with the world. We present MMAU, a novel benchmark designed to evaluate multimodal audio understanding models on tasks requiring expert-level knowledge and complex reasoning. MMAU comprises 10k carefully curated audio clips paired with human-annotated natural language questions and answers spanning speech, environmental sounds, and music. It includes information extraction and reasoning questions, requiring models to demonstrate 27 distinct skills across unique and challenging tasks. Unlike existing benchmarks, MMAU emphasizes advanced perception and reasoning with domain-specific knowledge, challenging models to tackle tasks akin to those faced by experts. We assess 18 open-source and proprietary (Large) Audio-Language Models, demonstrating the significant challenges posed by MMAU. Notably, even the most advanced Gemini Pro v1.5 achieves only 52.97% accuracy, and the state-of-the-art open-source Qwen2-Audio achieves only 52.50%, highlighting considerable room for improvement. We believe MMAU will drive the audio and multimodal research community to develop more advanced audio understanding models capable of solving complex audio tasks.

Summary

AI-Generated Summary

PDF192November 16, 2024