MMAU: 대규모 다중 작업 오디오 이해 및 추론 벤치마크
MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark
October 24, 2024
저자: S Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha
cs.AI
초록
오디오를 이해하는 능력 - 이는 음성, 비음성 소리 및 음악을 포함합니다 -은 AI 에이전트가 세계와 효과적으로 상호 작용하기 위한 중요한 요소입니다. 우리는 전문 수준의 지식과 복잡한 추론을 필요로 하는 작업에 대해 다중 모달 오디오 이해 모델을 평가하기 위해 고안된 혁신적인 벤치마크인 MMAU를 제시합니다. MMAU는 음성, 환경 소리 및 음악을 포함한 자연어 질문과 답변이 페어링된 10,000개의 신중하게 선별된 오디오 클립으로 구성됩니다. 이는 정보 추출 및 추론 질문을 포함하며, 모델이 독특하고 도전적인 작업을 통해 27가지 다양한 기술을 시연하도록 요구합니다. 기존의 벤치마크와는 달리, MMAU는 도메인 특정 지식을 강조한 고급 지각과 추론을 강조하며, 전문가들이 직면하는 작업과 유사한 작업을 모델에게 도전하고 있습니다. 우리는 MMAU에 의해 제기된 중요한 도전 과제를 보여주기 위해 18개의 오픈 소스 및 프로프리테리 (대규모) 오디오-언어 모델을 평가했습니다. 특히, 가장 선진인 Gemini Pro v1.5조차도 52.97%의 정확도만 달성하며, 최첨단 오픈 소스인 Qwen2-Audio도 52.50%만 달성하여 상당한 향상의 여지를 강조하고 있습니다. 우리는 MMAU가 오디오 및 다중 모달 연구 커뮤니티를 이끌어 더 복잡한 오디오 작업을 해결할 수 있는 고급 오디오 이해 모델을 개발하도록 할 것이라 믿습니다.
English
The ability to comprehend audio--which includes speech, non-speech sounds,
and music--is crucial for AI agents to interact effectively with the world. We
present MMAU, a novel benchmark designed to evaluate multimodal audio
understanding models on tasks requiring expert-level knowledge and complex
reasoning. MMAU comprises 10k carefully curated audio clips paired with
human-annotated natural language questions and answers spanning speech,
environmental sounds, and music. It includes information extraction and
reasoning questions, requiring models to demonstrate 27 distinct skills across
unique and challenging tasks. Unlike existing benchmarks, MMAU emphasizes
advanced perception and reasoning with domain-specific knowledge, challenging
models to tackle tasks akin to those faced by experts. We assess 18 open-source
and proprietary (Large) Audio-Language Models, demonstrating the significant
challenges posed by MMAU. Notably, even the most advanced Gemini Pro v1.5
achieves only 52.97% accuracy, and the state-of-the-art open-source Qwen2-Audio
achieves only 52.50%, highlighting considerable room for improvement. We
believe MMAU will drive the audio and multimodal research community to develop
more advanced audio understanding models capable of solving complex audio
tasks.Summary
AI-Generated Summary