MMAU: Ein umfangreicher Multi-Task-Audioverstehens- und -schlussfolgerungs-Benchmark

Zusammenfassung

Die Fähigkeit, Audioinhalte zu verstehen - dazu gehören Sprache, nicht-sprachliche Geräusche und Musik - ist entscheidend für KI-Agenten, um effektiv mit der Welt interagieren zu können. Wir stellen MMAU vor, einen neuartigen Benchmark, der entwickelt wurde, um multimodale Audioverständnismodelle bei Aufgaben mit Expertenwissen und komplexem Denken zu bewerten. MMAU umfasst 10.000 sorgfältig ausgewählte Audio-Clips, die mit menschlich annotierten natürlichsprachlichen Fragen und Antworten zu Sprache, Umgebungsgeräuschen und Musik kombiniert sind. Es beinhaltet Fragen zur Informationsgewinnung und zum Denken, bei denen Modelle 27 verschiedene Fähigkeiten in einzigartigen und anspruchsvollen Aufgaben demonstrieren müssen. Im Gegensatz zu bestehenden Benchmarks betont MMAU fortgeschrittenes Wahrnehmungsvermögen und Denken mit domänenspezifischem Wissen und fordert Modelle heraus, Aufgaben zu bewältigen, die Experten gegenüberstehen. Wir bewerten 18 Open-Source- und proprietäre (Große) Audio-Sprachmodelle und zeigen die signifikanten Herausforderungen auf, die MMAU darstellt. Bemerkenswerterweise erreicht selbst das fortschrittlichste Gemini Pro v1.5 nur eine Genauigkeit von 52,97 %, und das Open-Source-Modell Qwen2-Audio erreicht nur 52,50 %, was erhebliches Verbesserungspotenzial aufzeigt. Wir sind der Meinung, dass MMAU die Audio- und multimodale Forschungsgemeinschaft dazu bringen wird, fortschrittlichere Audioverständnismodelle zu entwickeln, die komplexe Audioaufgaben lösen können.

English

The ability to comprehend audio--which includes speech, non-speech sounds, and music--is crucial for AI agents to interact effectively with the world. We present MMAU, a novel benchmark designed to evaluate multimodal audio understanding models on tasks requiring expert-level knowledge and complex reasoning. MMAU comprises 10k carefully curated audio clips paired with human-annotated natural language questions and answers spanning speech, environmental sounds, and music. It includes information extraction and reasoning questions, requiring models to demonstrate 27 distinct skills across unique and challenging tasks. Unlike existing benchmarks, MMAU emphasizes advanced perception and reasoning with domain-specific knowledge, challenging models to tackle tasks akin to those faced by experts. We assess 18 open-source and proprietary (Large) Audio-Language Models, demonstrating the significant challenges posed by MMAU. Notably, even the most advanced Gemini Pro v1.5 achieves only 52.97% accuracy, and the state-of-the-art open-source Qwen2-Audio achieves only 52.50%, highlighting considerable room for improvement. We believe MMAU will drive the audio and multimodal research community to develop more advanced audio understanding models capable of solving complex audio tasks.

MMAU: Ein umfangreicher Multi-Task-Audioverstehens- und -schlussfolgerungs-Benchmark

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

Zusammenfassung

Summary

Support