NaturalBench : Évaluation des modèles Vision-Language sur des échantillons adverses naturels
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
October 18, 2024
Auteurs: Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan
cs.AI
Résumé
Les modèles vision-langage (VLM) ont réalisé des progrès significatifs dans les récents benchmarks de question-réponse visuelle (VQA) qui évaluent un raisonnement visio-linguistique complexe. Cependant, ces modèles sont-ils réellement efficaces ? Dans ce travail, nous montrons que les VLM ont encore du mal avec les images naturelles et les questions auxquelles les humains peuvent répondre facilement, ce que nous appelons des échantillons adverses naturels. Nous constatons également qu'il est étonnamment facile de générer ces échantillons VQA à partir de corpus d'images-textes naturels en utilisant des modèles prêts à l'emploi tels que CLIP et ChatGPT. Nous proposons une approche semi-automatisée pour collecter un nouveau benchmark, NaturalBench, afin d'évaluer de manière fiable les VLM avec 10 000 échantillons VQA vérifiés par des humains. De manière cruciale, nous adoptons une conception centrée sur la vision en associant à chaque question deux images qui donnent des réponses différentes, empêchant ainsi les solutions aveugles de répondre sans utiliser les images. Cela rend NaturalBench plus difficile que les benchmarks précédents qui peuvent être résolus avec des connaissances a priori. Nous évaluons 53 VLM de pointe sur NaturalBench, montrant que des modèles tels que LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, et même GPT-4o accusent un retard de 50 % à 70 % par rapport aux performances humaines (plus de 90 %). Nous analysons pourquoi NaturalBench est difficile sous deux angles : (1) Compositionnalité : Résoudre NaturalBench nécessite des compétences visio-linguistiques diverses, comprenant la compréhension des liens d'attributs, des relations entre objets, et un raisonnement avancé tel que la logique et le dénombrement. À cette fin, contrairement aux travaux antérieurs qui utilisent un seul tag par échantillon, nous étiquetons chaque échantillon de NaturalBench avec 1 à 8 tags de compétences pour une évaluation fine. (2) Biais : NaturalBench expose des biais sévères dans les VLM, car les modèles choisissent souvent la même réponse indépendamment de l'image. Enfin, nous appliquons notre méthode de curation de benchmark à des sources de données diverses, y compris de longues légendes (plus de 100 mots) et des langues non anglaises comme le chinois et l'hindi, mettant en avant son potentiel pour des évaluations dynamiques des VLM.
English
Vision-language models (VLMs) have made significant progress in recent
visual-question-answering (VQA) benchmarks that evaluate complex
visio-linguistic reasoning. However, are these models truly effective? In this
work, we show that VLMs still struggle with natural images and questions that
humans can easily answer, which we term natural adversarial samples. We also
find it surprisingly easy to generate these VQA samples from natural image-text
corpora using off-the-shelf models like CLIP and ChatGPT. We propose a
semi-automated approach to collect a new benchmark, NaturalBench, for reliably
evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a
vision-centric design by pairing each question with two images that
yield different answers, preventing blind solutions from answering without
using the images. This makes NaturalBench more challenging than previous
benchmarks that can be solved with commonsense priors. We evaluate 53
state-of-the-art VLMs on NaturalBench, showing that models like
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o
lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is
hard from two angles: (1) Compositionality: Solving NaturalBench requires
diverse visio-linguistic skills, including understanding attribute bindings,
object relationships, and advanced reasoning like logic and counting. To this
end, unlike prior work that uses a single tag per sample, we tag each
NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2)
Biases: NaturalBench exposes severe biases in VLMs, as models often choose the
same answer regardless of the image. Lastly, we apply our benchmark curation
method to diverse data sources, including long captions (over 100 words) and
non-English languages like Chinese and Hindi, highlighting its potential for
dynamic evaluations of VLMs.Summary
AI-Generated Summary