VisualSimpleQA: Ein Benchmark für die entkoppelte Bewertung großer Vision-Sprach-Modelle bei der faktenbasierten Fragebeantwortung
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering
March 9, 2025
Autoren: Yanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu
cs.AI
Zusammenfassung
Große visuell-sprachliche Modelle (LVLMs) haben bemerkenswerte Erfolge erzielt, doch die Erzeugung nicht-faktischer Antworten bleibt bei faktenorientierten Frage-Antwort-Systemen (QA) weit verbreitet. Aktuelle multimodale Benchmarks für faktenorientierte Fragestellungen konzentrieren sich hauptsächlich darauf, die Modellausgaben mit den tatsächlichen Antworten zu vergleichen, bieten jedoch nur begrenzte Einblicke in die Leistung modalspezifischer Module. Um diese Lücke zu schließen, stellen wir VisualSimpleQA vor, einen multimodalen Benchmark für faktenorientierte Fragestellungen mit zwei wesentlichen Merkmalen. Erstens ermöglicht er eine vereinfachte und entkoppelte Bewertung von LVLMs in visuellen und linguistischen Modalitäten. Zweitens integriert er klar definierte Schwierigkeitskriterien, um die menschliche Annotation zu leiten und die Extraktion einer anspruchsvollen Teilmenge, VisualSimpleQA-hard, zu erleichtern. Experimente mit 15 LVLMs zeigen, dass selbst state-of-the-art Modelle wie GPT-4o in der multimodalen faktenorientierten QA auf VisualSimpleQA lediglich eine Korrektheit von 60 %+ und auf VisualSimpleQA-hard von 30 %+ erreichen. Darüber hinaus verdeutlicht die entkoppelte Bewertung dieser Modelle erhebliche Verbesserungspotenziale sowohl in den visuellen als auch in den linguistischen Modulen. Der Datensatz ist verfügbar unter https://huggingface.co/datasets/WYLing/VisualSimpleQA.
English
Large vision-language models (LVLMs) have demonstrated remarkable
achievements, yet the generation of non-factual responses remains prevalent in
fact-seeking question answering (QA). Current multimodal fact-seeking
benchmarks primarily focus on comparing model outputs to ground truth answers,
providing limited insights into the performance of modality-specific modules.
To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking
benchmark with two key features. First, it enables streamlined and decoupled
evaluation of LVLMs in visual and linguistic modalities. Second, it
incorporates well-defined difficulty criteria to guide human annotation and
facilitates the extraction of a challenging subset, VisualSimpleQA-hard.
Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o
achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA
and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across
these models highlights substantial opportunities for improvement in both
visual and linguistic modules. The dataset is available at
https://huggingface.co/datasets/WYLing/VisualSimpleQA.Summary
AI-Generated Summary