ChatPaper.aiChatPaper

MVL-SIB: 크로스모달 주제 매칭을 위한 대규모 다국어 비전-언어 벤치마크

MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

February 18, 2025
저자: Fabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš
cs.AI

초록

기존의 다국어 시각-언어(VL) 벤치마크는 주로 소수의 언어만을 다루고 있습니다. 이로 인해 대규모 시각-언어 모델(LVLM)의 평가는 주로 고자원 언어를 대상으로 이루어지며, 저자원 언어에 대한 평가 데이터의 필요성이 강조되고 있습니다. 이러한 한계를 해결하기 위해, 우리는 205개 언어에 걸쳐 교차 모달 및 텍스트 전용 주제 매칭을 평가하는 대규모 다국어 시각-언어 벤치마크인 MVL-SIB를 소개합니다. 이는 기존의 가장 다국어적인 VL 벤치마크보다 100개 이상 많은 언어를 포함합니다. 그런 다음, MVL-SIB에서 다양한 오픈 웨이트 LVLM과 GPT-4o(-mini)를 벤치마크했습니다. 우리의 결과는 LVLM이 저자원 언어에서 교차 모달 주제 매칭에 어려움을 겪으며, N'Koo와 같은 언어에서는 우연 수준의 성능을 보인다는 것을 보여줍니다. 우리의 분석은 더 나아가, 교차 모달 및 텍스트 전용 주제 매칭 성능을 비교함으로써, LVLM의 VL 지원이 저자원 언어에 대해 텍스트 지원에 비해 불균형적으로 감소한다는 것을 보여줍니다. 또한, 오픈 웨이트 LVLM이 하나 이상의 이미지로 주제를 표현하는 데 이점을 얻지 못한다는 것을 관찰했으며, 이는 이러한 모델이 아직 다중 이미지 작업을 효과적으로 처리하지 못한다는 것을 시사합니다. MVL-SIB의 성능을 다른 다국어 VL 벤치마크와 상관 관계를 분석함으로써, MVL-SIB가 LVLM의 다국어 VL 이해를 종합적으로 탐구하는 도구로 기능한다는 것을 강조합니다.
English
Existing multilingual vision-language (VL) benchmarks often only cover a handful of languages. Consequently, evaluations of large vision-language models (LVLMs) predominantly target high-resource languages, underscoring the need for evaluation data for low-resource languages. To address this limitation, we introduce MVL-SIB, a massively multilingual vision-language benchmark that evaluates both cross-modal and text-only topical matching across 205 languages -- over 100 more than the most multilingual existing VL benchmarks encompass. We then benchmark a range of of open-weight LVLMs together with GPT-4o(-mini) on MVL-SIB. Our results reveal that LVLMs struggle in cross-modal topic matching in lower-resource languages, performing no better than chance on languages like N'Koo. Our analysis further reveals that VL support in LVLMs declines disproportionately relative to textual support for lower-resource languages, as evidenced by comparison of cross-modal and text-only topical matching performance. We further observe that open-weight LVLMs do not benefit from representing a topic with more than one image, suggesting that these models are not yet fully effective at handling multi-image tasks. By correlating performance on MVL-SIB with other multilingual VL benchmarks, we highlight that MVL-SIB serves as a comprehensive probe of multilingual VL understanding in LVLMs.

Summary

AI-Generated Summary

PDF32February 20, 2025