NaturalBench: Het evalueren van visie-taalmodellen op natuurlijke adversariële monsters
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
October 18, 2024
Auteurs: Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan
cs.AI
Samenvatting
Visie-taalmodellen (VLM's) hebben aanzienlijke vooruitgang geboekt in recente benchmarks voor visuele vraag-antwoord (VQA) die complexe visueel-linguïstische redenering evalueren. Echter, zijn deze modellen echt effectief? In dit werk tonen we aan dat VLM's nog steeds moeite hebben met natuurlijke afbeeldingen en vragen die mensen gemakkelijk kunnen beantwoorden, wat we natuurlijke tegenstanders noemen. We vinden het verrassend eenvoudig om deze VQA-samples te genereren uit natuurlijke afbeelding-tekstcorpora met behulp van kant-en-klare modellen zoals CLIP en ChatGPT. We stellen een semi-geautomatiseerde aanpak voor om een nieuwe benchmark te verzamelen, NaturalBench, voor het betrouwbaar evalueren van VLM's met 10.000 door mensen geverifieerde VQA-samples. Cruciaal is dat we een op visie gericht ontwerp aannemen door elke vraag te koppelen aan twee afbeeldingen die verschillende antwoorden opleveren, waardoor blinde oplossingen worden voorkomen zonder de afbeeldingen te gebruiken. Dit maakt NaturalBench uitdagender dan eerdere benchmarks die opgelost kunnen worden met gezond verstand. We evalueren 53 toonaangevende VLM's op NaturalBench, waarbij we laten zien dat modellen zoals LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, en zelfs GPT-4o 50%-70% achterblijven bij menselijke prestaties (meer dan 90%). We analyseren waarom NaturalBench moeilijk is vanuit twee invalshoeken: (1) Compositie: Het oplossen van NaturalBench vereist diverse visueel-linguïstische vaardigheden, waaronder begrip van attribuutbindingen, objectrelaties, en geavanceerde redenering zoals logica en tellen. Daartoe taggen we elk NaturalBench-sample met 1 tot 8 vaardigheidstags voor gedetailleerde evaluatie, in tegenstelling tot eerdere werken die slechts één tag per sample gebruiken. (2) Vooroordelen: NaturalBench blootstelt ernstige vooroordelen in VLM's, aangezien modellen vaak hetzelfde antwoord kiezen ongeacht de afbeelding. Tot slot passen we onze benchmark-curatormethode toe op diverse gegevensbronnen, waaronder lange bijschriften (meer dan 100 woorden) en niet-Engelse talen zoals Chinees en Hindi, waarbij we de potentie ervan benadrukken voor dynamische evaluaties van VLM's.
English
Vision-language models (VLMs) have made significant progress in recent
visual-question-answering (VQA) benchmarks that evaluate complex
visio-linguistic reasoning. However, are these models truly effective? In this
work, we show that VLMs still struggle with natural images and questions that
humans can easily answer, which we term natural adversarial samples. We also
find it surprisingly easy to generate these VQA samples from natural image-text
corpora using off-the-shelf models like CLIP and ChatGPT. We propose a
semi-automated approach to collect a new benchmark, NaturalBench, for reliably
evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a
vision-centric design by pairing each question with two images that
yield different answers, preventing blind solutions from answering without
using the images. This makes NaturalBench more challenging than previous
benchmarks that can be solved with commonsense priors. We evaluate 53
state-of-the-art VLMs on NaturalBench, showing that models like
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o
lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is
hard from two angles: (1) Compositionality: Solving NaturalBench requires
diverse visio-linguistic skills, including understanding attribute bindings,
object relationships, and advanced reasoning like logic and counting. To this
end, unlike prior work that uses a single tag per sample, we tag each
NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2)
Biases: NaturalBench exposes severe biases in VLMs, as models often choose the
same answer regardless of the image. Lastly, we apply our benchmark curation
method to diverse data sources, including long captions (over 100 words) and
non-English languages like Chinese and Hindi, highlighting its potential for
dynamic evaluations of VLMs.Summary
AI-Generated Summary