MMAU : Un vaste banc d'essai pour la compréhension et le raisonnement audio multi-tâches.

papers.abstract

La capacité de comprendre l'audio - comprenant la parole, les sons non verbaux et la musique - est cruciale pour que les agents d'IA interagissent efficacement avec le monde. Nous présentons MMAU, un nouveau banc d'essai conçu pour évaluer les modèles de compréhension audio multimodale sur des tâches nécessitant une connaissance de niveau expert et un raisonnement complexe. MMAU comprend 10 000 extraits audio soigneusement sélectionnés, associés à des questions et réponses en langage naturel annotées par des humains, couvrant la parole, les sons environnementaux et la musique. Il inclut des questions d'extraction d'informations et de raisonnement, obligeant les modèles à démontrer 27 compétences distinctes à travers des tâches uniques et complexes. Contrairement aux bancs d'essai existants, MMAU met l'accent sur la perception avancée et le raisonnement avec des connaissances spécifiques au domaine, défiant les modèles à relever des tâches similaires à celles auxquelles sont confrontés les experts. Nous évaluons 18 modèles audio-langage (Large) open-source et propriétaires, mettant en évidence les défis significatifs posés par MMAU. Notamment, même le plus avancé des modèles Gemini Pro v1.5 n'atteint qu'une précision de 52,97 %, et le modèle open-source de pointe Qwen2-Audio n'atteint que 52,50 %, soulignant un potentiel d'amélioration considérable. Nous pensons que MMAU incitera la communauté de recherche en audio et multimodal à développer des modèles de compréhension audio plus avancés capables de résoudre des tâches audio complexes.

English

The ability to comprehend audio--which includes speech, non-speech sounds, and music--is crucial for AI agents to interact effectively with the world. We present MMAU, a novel benchmark designed to evaluate multimodal audio understanding models on tasks requiring expert-level knowledge and complex reasoning. MMAU comprises 10k carefully curated audio clips paired with human-annotated natural language questions and answers spanning speech, environmental sounds, and music. It includes information extraction and reasoning questions, requiring models to demonstrate 27 distinct skills across unique and challenging tasks. Unlike existing benchmarks, MMAU emphasizes advanced perception and reasoning with domain-specific knowledge, challenging models to tackle tasks akin to those faced by experts. We assess 18 open-source and proprietary (Large) Audio-Language Models, demonstrating the significant challenges posed by MMAU. Notably, even the most advanced Gemini Pro v1.5 achieves only 52.97% accuracy, and the state-of-the-art open-source Qwen2-Audio achieves only 52.50%, highlighting considerable room for improvement. We believe MMAU will drive the audio and multimodal research community to develop more advanced audio understanding models capable of solving complex audio tasks.

MMAU : Un vaste banc d'essai pour la compréhension et le raisonnement audio multi-tâches.

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

papers.abstract

Support