VideoVista-CulturalLingo: 360^circ Horizons - Culturen, Talen en Domeinen Overbruggen in Videobegrip
VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension
April 23, 2025
Auteurs: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
cs.AI
Samenvatting
Het beoordelen van de video-begripsvaardigheden van multimodale AI-systemen kan effectief hun begrip en redeneervermogen meten. De meeste video-evaluatiebenchmarks zijn beperkt tot één taal, meestal Engels, en bevatten voornamelijk video's die geworteld zijn in westerse culturele contexten. In dit artikel presenteren we VideoVista-CulturalLingo, de eerste video-evaluatiebenchmark die is ontworpen om de culturele, linguïstische en domeinkloof in videobegrip te overbruggen. Ons werk onderscheidt zich van bestaande benchmarks op de volgende manieren: 1) Culturele diversiteit, met inbegrip van culturen uit China, Noord-Amerika en Europa; 2) Meertaligheid, met vragen die in het Chinees en Engels worden gepresenteerd – twee van de meest gesproken talen; en 3) Breed domein, met video's afkomstig uit honderden door mensen gecreëerde domeinen. VideoVista-CulturalLingo bevat 1.389 video's en 3.134 vraag-antwoordparen, en we hebben 24 recente open-source of propriëtaire video-large models geëvalueerd. Uit de experimentresultaten observeren we dat: 1) Bestaande modellen slechter presteren op Chinees-gerichte vragen dan op westers-gerichte vragen, met name die gerelateerd aan Chinese geschiedenis; 2) Huidige open-source modellen nog steeds beperkingen vertonen in temporeel begrip, vooral in de Event Localization-taak, met een maximale score van slechts 45,2%; 3) Mainstream modellen sterke prestaties laten zien in algemene wetenschappelijke vragen, terwijl open-source modellen zwak presteren in wiskunde.
English
Assessing the video comprehension capabilities of multimodal AI systems can
effectively measure their understanding and reasoning abilities. Most video
evaluation benchmarks are limited to a single language, typically English, and
predominantly feature videos rooted in Western cultural contexts. In this
paper, we present VideoVista-CulturalLingo, the first video evaluation
benchmark designed to bridge cultural, linguistic, and domain divide in video
comprehension. Our work differs from existing benchmarks in the following ways:
1) Cultural diversity, incorporating cultures from China, North America, and
Europe; 2) Multi-linguistics, with questions presented in Chinese and
English-two of the most widely spoken languages; and 3) Broad domain, featuring
videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo
contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent
open-source or proprietary video large models. From the experiment results, we
observe that: 1) Existing models perform worse on Chinese-centric questions
than Western-centric ones, particularly those related to Chinese history; 2)
Current open-source models still exhibit limitations in temporal understanding,
especially in the Event Localization task, achieving a maximum score of only
45.2%; 3) Mainstream models demonstrate strong performance in general
scientific questions, while open-source models demonstrate weak performance in
mathematics.Summary
AI-Generated Summary