VisualSimpleQA: Ein Benchmark für die entkoppelte Bewertung großer Vision-Sprach-Modelle bei der faktenbasierten Fragebeantwortung

Zusammenfassung

Große visuell-sprachliche Modelle (LVLMs) haben bemerkenswerte Erfolge erzielt, doch die Erzeugung nicht-faktischer Antworten bleibt bei faktenorientierten Frage-Antwort-Systemen (QA) weit verbreitet. Aktuelle multimodale Benchmarks für faktenorientierte Fragestellungen konzentrieren sich hauptsächlich darauf, die Modellausgaben mit den tatsächlichen Antworten zu vergleichen, bieten jedoch nur begrenzte Einblicke in die Leistung modalspezifischer Module. Um diese Lücke zu schließen, stellen wir VisualSimpleQA vor, einen multimodalen Benchmark für faktenorientierte Fragestellungen mit zwei wesentlichen Merkmalen. Erstens ermöglicht er eine vereinfachte und entkoppelte Bewertung von LVLMs in visuellen und linguistischen Modalitäten. Zweitens integriert er klar definierte Schwierigkeitskriterien, um die menschliche Annotation zu leiten und die Extraktion einer anspruchsvollen Teilmenge, VisualSimpleQA-hard, zu erleichtern. Experimente mit 15 LVLMs zeigen, dass selbst state-of-the-art Modelle wie GPT-4o in der multimodalen faktenorientierten QA auf VisualSimpleQA lediglich eine Korrektheit von 60 %+ und auf VisualSimpleQA-hard von 30 %+ erreichen. Darüber hinaus verdeutlicht die entkoppelte Bewertung dieser Modelle erhebliche Verbesserungspotenziale sowohl in den visuellen als auch in den linguistischen Modulen. Der Datensatz ist verfügbar unter https://huggingface.co/datasets/WYLing/VisualSimpleQA.

English

Large vision-language models (LVLMs) have demonstrated remarkable achievements, yet the generation of non-factual responses remains prevalent in fact-seeking question answering (QA). Current multimodal fact-seeking benchmarks primarily focus on comparing model outputs to ground truth answers, providing limited insights into the performance of modality-specific modules. To bridge this gap, we introduce VisualSimpleQA, a multimodal fact-seeking benchmark with two key features. First, it enables streamlined and decoupled evaluation of LVLMs in visual and linguistic modalities. Second, it incorporates well-defined difficulty criteria to guide human annotation and facilitates the extraction of a challenging subset, VisualSimpleQA-hard. Experiments on 15 LVLMs show that even state-of-the-art models such as GPT-4o achieve merely 60%+ correctness in multimodal fact-seeking QA on VisualSimpleQA and 30%+ on VisualSimpleQA-hard. Furthermore, the decoupled evaluation across these models highlights substantial opportunities for improvement in both visual and linguistic modules. The dataset is available at https://huggingface.co/datasets/WYLing/VisualSimpleQA.

VisualSimpleQA: Ein Benchmark für die entkoppelte Bewertung großer Vision-Sprach-Modelle bei der faktenbasierten Fragebeantwortung

VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering

Zusammenfassung

Summary

Support

Support