VideoVista-CulturalLingo: 360^circ Horizons - Culturen, Talen en Domeinen Overbruggen in Videobegrip

Samenvatting

Het beoordelen van de video-begripsvaardigheden van multimodale AI-systemen kan effectief hun begrip en redeneervermogen meten. De meeste video-evaluatiebenchmarks zijn beperkt tot één taal, meestal Engels, en bevatten voornamelijk video's die geworteld zijn in westerse culturele contexten. In dit artikel presenteren we VideoVista-CulturalLingo, de eerste video-evaluatiebenchmark die is ontworpen om de culturele, linguïstische en domeinkloof in videobegrip te overbruggen. Ons werk onderscheidt zich van bestaande benchmarks op de volgende manieren: 1) Culturele diversiteit, met inbegrip van culturen uit China, Noord-Amerika en Europa; 2) Meertaligheid, met vragen die in het Chinees en Engels worden gepresenteerd – twee van de meest gesproken talen; en 3) Breed domein, met video's afkomstig uit honderden door mensen gecreëerde domeinen. VideoVista-CulturalLingo bevat 1.389 video's en 3.134 vraag-antwoordparen, en we hebben 24 recente open-source of propriëtaire video-large models geëvalueerd. Uit de experimentresultaten observeren we dat: 1) Bestaande modellen slechter presteren op Chinees-gerichte vragen dan op westers-gerichte vragen, met name die gerelateerd aan Chinese geschiedenis; 2) Huidige open-source modellen nog steeds beperkingen vertonen in temporeel begrip, vooral in de Event Localization-taak, met een maximale score van slechts 45,2%; 3) Mainstream modellen sterke prestaties laten zien in algemene wetenschappelijke vragen, terwijl open-source modellen zwak presteren in wiskunde.

English

Assessing the video comprehension capabilities of multimodal AI systems can effectively measure their understanding and reasoning abilities. Most video evaluation benchmarks are limited to a single language, typically English, and predominantly feature videos rooted in Western cultural contexts. In this paper, we present VideoVista-CulturalLingo, the first video evaluation benchmark designed to bridge cultural, linguistic, and domain divide in video comprehension. Our work differs from existing benchmarks in the following ways: 1) Cultural diversity, incorporating cultures from China, North America, and Europe; 2) Multi-linguistics, with questions presented in Chinese and English-two of the most widely spoken languages; and 3) Broad domain, featuring videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent open-source or proprietary video large models. From the experiment results, we observe that: 1) Existing models perform worse on Chinese-centric questions than Western-centric ones, particularly those related to Chinese history; 2) Current open-source models still exhibit limitations in temporal understanding, especially in the Event Localization task, achieving a maximum score of only 45.2%; 3) Mainstream models demonstrate strong performance in general scientific questions, while open-source models demonstrate weak performance in mathematics.

VideoVista-CulturalLingo: 360^circ Horizons - Culturen, Talen en Domeinen Overbruggen in Videobegrip

VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

Samenvatting

Summary

Support

Support