MMVU: Messung von Experten-Level Multi-Disziplin Videoverständnis
MMVU: Measuring Expert-Level Multi-Discipline Video Understanding
January 21, 2025
Autoren: Yilun Zhao, Lujing Xie, Haowei Zhang, Guo Gan, Yitao Long, Zhiyuan Hu, Tongyan Hu, Weiyuan Chen, Chuhan Li, Junyang Song, Zhijian Xu, Chengye Wang, Weifeng Pan, Ziyao Shangguan, Xiangru Tang, Zhenwen Liang, Yixin Liu, Chen Zhao, Arman Cohan
cs.AI
Zusammenfassung
Wir stellen MMVU vor, einen umfassenden Benchmark auf Expertenebene, der zur Evaluierung von Grundlagenmodellen in der Videoverarbeitung dient. MMVU umfasst 3.000 von Experten annotierte Fragen, die sich über 27 Themenbereiche in vier Kernbereichen erstrecken: Naturwissenschaften, Gesundheitswesen, Geistes- & Sozialwissenschaften sowie Ingenieurwesen. Im Vergleich zu früheren Benchmarks weist MMVU drei wesentliche Fortschritte auf. Erstens fordert es Modelle heraus, domänenspezifisches Wissen anzuwenden und Expertenlogik anzuwenden, um spezialisierte Videos zu analysieren, wodurch über die grundlegende visuelle Wahrnehmung hinausgegangen wird, die typischerweise in aktuellen Video-Benchmarks bewertet wird. Zweitens wird jedes Beispiel von menschlichen Experten von Grund auf neu annotiert. Wir implementieren strenge Qualitätskontrollen der Daten, um die hohe Qualität des Datensatzes sicherzustellen. Schließlich wird jedes Beispiel mit Experten-annotierten Begründungsrationalen und relevantem Fachwissen angereichert, was eine eingehende Analyse ermöglicht. Wir führen eine umfassende Evaluation von 32 führenden multimodalen Grundlagenmodellen auf MMVU durch. Die neuesten System-2-fähigen Modelle, o1 und Gemini 2.0 Flash Thinking, erzielen die höchste Leistung unter den getesteten Modellen. Dennoch erreichen sie immer noch nicht das Niveau menschlicher Expertise. Durch eingehende Fehleranalysen und Fallstudien bieten wir handlungsorientierte Erkenntnisse für zukünftige Fortschritte in der Experten-Level, wissensintensiven Videoverarbeitung für spezialisierte Bereiche.
English
We introduce MMVU, a comprehensive expert-level, multi-discipline benchmark
for evaluating foundation models in video understanding. MMVU includes 3,000
expert-annotated questions spanning 27 subjects across four core disciplines:
Science, Healthcare, Humanities & Social Sciences, and Engineering. Compared to
prior benchmarks, MMVU features three key advancements. First, it challenges
models to apply domain-specific knowledge and perform expert-level reasoning to
analyze specialized-domain videos, moving beyond the basic visual perception
typically assessed in current video benchmarks. Second, each example is
annotated by human experts from scratch. We implement strict data quality
controls to ensure the high quality of the dataset. Finally, each example is
enriched with expert-annotated reasoning rationals and relevant domain
knowledge, facilitating in-depth analysis. We conduct an extensive evaluation
of 32 frontier multimodal foundation models on MMVU. The latest
System-2-capable models, o1 and Gemini 2.0 Flash Thinking, achieve the highest
performance among the tested models. However, they still fall short of matching
human expertise. Through in-depth error analyses and case studies, we offer
actionable insights for future advancements in expert-level,
knowledge-intensive video understanding for specialized domains.Summary
AI-Generated Summary