ChatPaper.aiChatPaper

Video-MMMU: Evaluierung des Wissenserwerbs aus Videos von multidisziplinären Fachleuten

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

January 23, 2025
Autoren: Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu
cs.AI

Zusammenfassung

Menschen erwerben Wissen durch drei kognitive Phasen: Informationswahrnehmung, Wissensverständnis und Anpassung des Wissens zur Lösung neuer Probleme. Videos dienen als effektives Medium für diesen Lernprozess und erleichtern das Durchlaufen dieser kognitiven Phasen. Allerdings versagen bestehende Videobenchmarks dabei, die Fähigkeiten zur Wissensaneignung in großen multimodalen Modellen systematisch zu bewerten. Um diese Lücke zu schließen, stellen wir Video-MMMU vor, einen multimodalen, multidisziplinären Benchmark, der entwickelt wurde, um die Fähigkeit von LMMs zu bewerten, Wissen aus Videos zu erwerben und zu nutzen. Video-MMMU umfasst eine kuratierte Sammlung von 300 Expertenvideos und 900 menschen-annotierten Fragen aus sechs Disziplinen, die die Wissensaneignung durch aufeinander abgestimmte Frage-Antwort-Paare in den Phasen Wahrnehmung, Verständnis und Anpassung bewerten. Ein vorgeschlagenes Metrik zur Wissensgewinnung, ΔWissen, quantifiziert die Leistungsverbesserung nach dem Ansehen des Videos. Die Evaluation von LMMs zeigt einen steilen Leistungsabfall, wenn die kognitiven Anforderungen steigen, und verdeutlicht eine signifikante Kluft zwischen menschlicher und Modell-Wissensaneignung, was die Notwendigkeit von Methoden zur Verbesserung der Fähigkeit von LMMs, aus Videos zu lernen und sich anzupassen, unterstreicht.
English
Humans acquire knowledge through three cognitive stages: perceiving information, comprehending knowledge, and adapting knowledge to solve novel problems. Videos serve as an effective medium for this learning process, facilitating a progression through these cognitive stages. However, existing video benchmarks fail to systematically evaluate the knowledge acquisition capabilities in Large Multimodal Models (LMMs). To address this gap, we introduce Video-MMMU, a multi-modal, multi-disciplinary benchmark designed to assess LMMs' ability to acquire and utilize knowledge from videos. Video-MMMU features a curated collection of 300 expert-level videos and 900 human-annotated questions across six disciplines, evaluating knowledge acquisition through stage-aligned question-answer pairs: Perception, Comprehension, and Adaptation. A proposed knowledge gain metric, {\Delta}knowledge, quantifies improvement in performance after video viewing. Evaluation of LMMs reveals a steep decline in performance as cognitive demands increase and highlights a significant gap between human and model knowledge acquisition, underscoring the need for methods to enhance LMMs' capability to learn and adapt from videos.

Summary

AI-Generated Summary

PDF262January 24, 2025