VideoVista-CulturalLingo : Horizons à 360° - Relier les cultures, les langues et les domaines dans la compréhension vidéo
VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension
April 23, 2025
Auteurs: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang
cs.AI
Résumé
Évaluer les capacités de compréhension vidéo des systèmes d'IA multimodaux permet de mesurer efficacement leurs aptitudes à comprendre et à raisonner. La plupart des benchmarks d'évaluation vidéo se limitent à une seule langue, généralement l'anglais, et présentent principalement des vidéos ancrées dans des contextes culturels occidentaux. Dans cet article, nous présentons VideoVista-CulturalLingo, le premier benchmark d'évaluation vidéo conçu pour combler les écarts culturels, linguistiques et domainaux dans la compréhension vidéo. Notre travail se distingue des benchmarks existants de plusieurs manières : 1) Diversité culturelle, intégrant des cultures de Chine, d'Amérique du Nord et d'Europe ; 2) Multilinguisme, avec des questions présentées en chinois et en anglais, deux des langues les plus parlées ; et 3) Large domaine, incluant des vidéos provenant de centaines de domaines créés par l'homme. VideoVista-CulturalLingo contient 1 389 vidéos et 3 134 paires de questions-réponses, et nous avons évalué 24 modèles vidéo récents, open-source ou propriétaires. Les résultats des expériences montrent que : 1) Les modèles existants obtiennent de moins bons résultats sur les questions centrées sur la Chine que sur celles centrées sur l'Occident, en particulier celles liées à l'histoire chinoise ; 2) Les modèles open-source actuels présentent encore des limites dans la compréhension temporelle, notamment dans la tâche de Localisation d'Événements, avec un score maximum de seulement 45,2 % ; 3) Les modèles grand public montrent de solides performances sur les questions scientifiques générales, tandis que les modèles open-source affichent des performances faibles en mathématiques.
English
Assessing the video comprehension capabilities of multimodal AI systems can
effectively measure their understanding and reasoning abilities. Most video
evaluation benchmarks are limited to a single language, typically English, and
predominantly feature videos rooted in Western cultural contexts. In this
paper, we present VideoVista-CulturalLingo, the first video evaluation
benchmark designed to bridge cultural, linguistic, and domain divide in video
comprehension. Our work differs from existing benchmarks in the following ways:
1) Cultural diversity, incorporating cultures from China, North America, and
Europe; 2) Multi-linguistics, with questions presented in Chinese and
English-two of the most widely spoken languages; and 3) Broad domain, featuring
videos sourced from hundreds of human-created domains. VideoVista-CulturalLingo
contains 1,389 videos and 3,134 QA pairs, and we have evaluated 24 recent
open-source or proprietary video large models. From the experiment results, we
observe that: 1) Existing models perform worse on Chinese-centric questions
than Western-centric ones, particularly those related to Chinese history; 2)
Current open-source models still exhibit limitations in temporal understanding,
especially in the Event Localization task, achieving a maximum score of only
45.2%; 3) Mainstream models demonstrate strong performance in general
scientific questions, while open-source models demonstrate weak performance in
mathematics.Summary
AI-Generated Summary