NaturalBench: Evaluierung von Vision-Language-Modellen anhand natürlicher adversarischer Stichproben
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
October 18, 2024
Autoren: Baiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan
cs.AI
Zusammenfassung
Vision-Sprach-Modelle (VLMs) haben in jüngster Zeit signifikante Fortschritte bei visuellen Frage-Antwort-Benchmarks (VQA) erzielt, die komplexe visuell-linguistische Schlussfolgerungen bewerten. Doch sind diese Modelle wirklich effektiv? In dieser Arbeit zeigen wir, dass VLMs nach wie vor Schwierigkeiten mit natürlichen Bildern und Fragen haben, die Menschen leicht beantworten können, was wir als natürliche adversarielle Beispiele bezeichnen. Wir stellen auch fest, dass es überraschend einfach ist, diese VQA-Beispiele aus natürlichen Bild-Text-Korpora mithilfe von Standardmodellen wie CLIP und ChatGPT zu generieren. Wir schlagen einen halbautomatisierten Ansatz zur Sammlung eines neuen Benchmarks, NaturalBench, vor, um VLMs mit 10.000 von Menschen verifizierten VQA-Beispielen zuverlässig zu bewerten. Entscheidend ist, dass wir ein auf Vision ausgerichtetes Design übernehmen, indem wir jede Frage mit zwei Bildern paaren, die unterschiedliche Antworten liefern, um zu verhindern, dass blinde Lösungen antworten, ohne die Bilder zu verwenden. Dies macht NaturalBench anspruchsvoller als frühere Benchmarks, die mit gesundem Menschenverstand gelöst werden können. Wir evaluieren 53 hochmoderne VLMs auf NaturalBench und zeigen, dass Modelle wie LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL und sogar GPT-4o um 50%-70% hinter der menschlichen Leistung (über 90%) zurückbleiben. Wir analysieren, warum NaturalBench aus zwei Blickwinkeln heraus schwierig ist: (1) Komposition: Das Lösen von NaturalBench erfordert vielfältige visuell-linguistische Fähigkeiten, einschließlich des Verständnisses von Attributbindungen, Objektbeziehungen und fortgeschrittenem Denken wie Logik und Zählen. Zu diesem Zweck taggen wir im Gegensatz zu früheren Arbeiten, die pro Beispiel nur ein Tag verwenden, jedes NaturalBench-Beispiel mit 1 bis 8 Fähigkeitstags für eine feinkörnige Bewertung. (2) Vorurteile: NaturalBench deckt starke Vorurteile in VLMs auf, da Modelle oft unabhängig vom Bild dieselbe Antwort wählen. Schließlich wenden wir unsere Benchmark-Kuratierungsmethode auf verschiedene Datenquellen an, einschließlich langer Bildunterschriften (über 100 Wörter) und nicht-englischer Sprachen wie Chinesisch und Hindi, um ihr Potenzial für dynamische Bewertungen von VLMs hervorzuheben.
English
Vision-language models (VLMs) have made significant progress in recent
visual-question-answering (VQA) benchmarks that evaluate complex
visio-linguistic reasoning. However, are these models truly effective? In this
work, we show that VLMs still struggle with natural images and questions that
humans can easily answer, which we term natural adversarial samples. We also
find it surprisingly easy to generate these VQA samples from natural image-text
corpora using off-the-shelf models like CLIP and ChatGPT. We propose a
semi-automated approach to collect a new benchmark, NaturalBench, for reliably
evaluating VLMs with 10,000 human-verified VQA samples. Crucially, we adopt a
vision-centric design by pairing each question with two images that
yield different answers, preventing blind solutions from answering without
using the images. This makes NaturalBench more challenging than previous
benchmarks that can be solved with commonsense priors. We evaluate 53
state-of-the-art VLMs on NaturalBench, showing that models like
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, and even GPT-4o
lag 50%-70% behind human performance (over 90%). We analyze why NaturalBench is
hard from two angles: (1) Compositionality: Solving NaturalBench requires
diverse visio-linguistic skills, including understanding attribute bindings,
object relationships, and advanced reasoning like logic and counting. To this
end, unlike prior work that uses a single tag per sample, we tag each
NaturalBench sample with 1 to 8 skill tags for fine-grained evaluation. (2)
Biases: NaturalBench exposes severe biases in VLMs, as models often choose the
same answer regardless of the image. Lastly, we apply our benchmark curation
method to diverse data sources, including long captions (over 100 words) and
non-English languages like Chinese and Hindi, highlighting its potential for
dynamic evaluations of VLMs.Summary
AI-Generated Summary