ChatPaper.aiChatPaper

VideoVista-CulturalLingo: 360° Horizonte – Brücken zwischen Kulturen, Sprachen und Domänen in der Videoverständnisanalyse

VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

April 23, 2025
Autoren: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
cs.AI

Zusammenfassung

Die Bewertung der Video-Verständnisfähigkeiten multimodaler KI-Systeme kann effektiv deren Verständnis- und Schlussfolgerungsfähigkeiten messen. Die meisten Video-Evaluierungsbenchmarks beschränken sich auf eine einzige Sprache, typischerweise Englisch, und zeigen überwiegend Videos, die in westlichen kulturellen Kontexten verwurzelt sind. In diesem Artikel präsentieren wir VideoVista-CulturalLingo, den ersten Video-Evaluierungsbenchmark, der darauf abzielt, die kulturelle, sprachliche und domänenspezifische Kluft im Video-Verständnis zu überbrücken. Unsere Arbeit unterscheidet sich von bestehenden Benchmarks in folgenden Punkten: 1) Kulturelle Vielfalt, die Kulturen aus China, Nordamerika und Europa einbezieht; 2) Mehrsprachigkeit, mit Fragen, die in Chinesisch und Englisch – zwei der am weitesten verbreiteten Sprachen – gestellt werden; und 3) Breite Domänenabdeckung, mit Videos aus Hunderten von menschengeschaffenen Bereichen. VideoVista-CulturalLingo enthält 1.389 Videos und 3.134 Frage-Antwort-Paare, und wir haben 24 aktuelle Open-Source- oder proprietäre Video-Großmodelle evaluiert. Aus den Experimentergebnissen beobachten wir Folgendes: 1) Bestehende Modelle schneiden bei chinesisch-zentrierten Fragen schlechter ab als bei westlich-zentrierten, insbesondere bei Fragen zur chinesischen Geschichte; 2) Aktuelle Open-Source-Modelle zeigen weiterhin Einschränkungen im zeitlichen Verständnis, insbesondere bei der Aufgabe der Ereignislokalisierung, mit einem maximalen Score von nur 45,2 %; 3) Mainstream-Modelle zeigen eine starke Leistung bei allgemeinen wissenschaftlichen Fragen, während Open-Source-Modelle in Mathematik schwache Leistungen aufweisen.
English
Assessing the video comprehension capabilities of multimodal AI systems can effectively measure their understanding and reasoning abilities. Most video evaluation benchmarks are limited to a single language, typically English, and predominantly feature videos rooted in Western cultural contexts. In this paper, we present VideoVista-CulturalLingo, the first video evaluation benchmark designed to bridge cultural, linguistic, and domain divide in video comprehension. Our work differs from existing benchmarks in the following ways: 1) Cultural diversity, incorporating cultures from China, North America, and Europe; 2) Multi-linguistics, with questions presented in Chinese and English-two of the most widely spoken languages; and 3) Broad domain, featuring videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent open-source or proprietary video large models. From the experiment results, we observe that: 1) Existing models perform worse on Chinese-centric questions than Western-centric ones, particularly those related to Chinese history; 2) Current open-source models still exhibit limitations in temporal understanding, especially in the Event Localization task, achieving a maximum score of only 45.2%; 3) Mainstream models demonstrate strong performance in general scientific questions, while open-source models demonstrate weak performance in mathematics.

Summary

AI-Generated Summary

PDF191April 28, 2025