Video-MMMU: Evaluatie van Kennisverwerving uit Professionele Video's van Meerdere Disciplines

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

January 23, 2025
Auteurs: Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu
cs.AI

Samenvatting

Mensen verwerven kennis via drie cognitieve fasen: informatie waarnemen, kennis begrijpen en kennis aanpassen om nieuwe problemen op te lossen. Video's dienen als een effectief medium voor dit leerproces, waarbij ze een voortgang door deze cognitieve fasen vergemakkelijken. Echter, bestaande videobenchmarks falen in het systematisch evalueren van de kennisverwervingsmogelijkheden in Grote Multimodale Modellen (GMM's). Om deze lacune aan te pakken, introduceren we Video-MMMU, een multi-modale, multidisciplinaire benchmark ontworpen om de capaciteit van GMM's om kennis uit video's te verwerven en te gebruiken te beoordelen. Video-MMMU bevat een samengestelde verzameling van 300 expertniveau video's en 900 mens-geannoteerde vragen over zes disciplines, waarbij kennisverwerving wordt geëvalueerd via vraag-antwoordparen die zijn afgestemd op de fasen: Waarneming, Begrip en Aanpassing. Een voorgestelde kenniswinst-metriek, Δkennis, kwantificeert verbetering in prestaties na het bekijken van de video. Evaluatie van GMM's onthult een sterke afname in prestaties naarmate de cognitieve eisen toenemen en benadrukt een significante kloof tussen menselijke en modelkennisverwerving, waarbij de noodzaak wordt benadrukt voor methoden om de capaciteit van GMM's om te leren en zich aan te passen aan video's te verbeteren.
English
Humans acquire knowledge through three cognitive stages: perceiving information, comprehending knowledge, and adapting knowledge to solve novel problems. Videos serve as an effective medium for this learning process, facilitating a progression through these cognitive stages. However, existing video benchmarks fail to systematically evaluate the knowledge acquisition capabilities in Large Multimodal Models (LMMs). To address this gap, we introduce Video-MMMU, a multi-modal, multi-disciplinary benchmark designed to assess LMMs' ability to acquire and utilize knowledge from videos. Video-MMMU features a curated collection of 300 expert-level videos and 900 human-annotated questions across six disciplines, evaluating knowledge acquisition through stage-aligned question-answer pairs: Perception, Comprehension, and Adaptation. A proposed knowledge gain metric, {\Delta}knowledge, quantifies improvement in performance after video viewing. Evaluation of LMMs reveals a steep decline in performance as cognitive demands increase and highlights a significant gap between human and model knowledge acquisition, underscoring the need for methods to enhance LMMs' capability to learn and adapt from videos.

Summary

AI-Generated Summary

PDF242January 24, 2025