CAPTURe: Evaluatie van ruimtelijk redeneren in visuele taalmodellen via het tellen van verborgen objecten
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
April 21, 2025
Auteurs: Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI
Samenvatting
Het herkennen en redeneren over verborgen (gedeeltelijk of volledig verstopte) objecten is essentieel voor het begrijpen van visuele scènes, aangezien occlusies vaak voorkomen in realistische omgevingen en als obstakels fungeren voor ruimtelijk begrip. Om het vermogen van modellen te testen om over meerdere verborgen objecten te redeneren, introduceren we een nieuwe taak, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), waarbij een model objecten die in een patroon zijn gerangschikt moet tellen door af te leiden hoe het patroon zich achter een occluder (een object dat delen van de scène blokkeert) voortzet. CAPTURe vereist zowel het herkennen van visuele patronen als redeneren, waardoor het een nuttige testomgeving is voor het evalueren van vision-language modellen (VLMs) op hun begrip van verborgen patronen en ruimtelijke inzichtvaardigheden. Door modellen te verplichten te redeneren over verborgen objecten, test CAPTURe ook het vermogen van VLMs om wereldmodellen te vormen die hen in staat stellen ontbrekende informatie in te vullen. CAPTURe bestaat uit twee delen: (1) CAPTURe-real, met handmatig gefilterde afbeeldingen van echte objecten in patronen, en (2) CAPTURe-synthetic, een gecontroleerde diagnostische test met gegenereerde gepatroonde afbeeldingen. We evalueren vier sterke VLMs (GPT-4o, Intern-VL2, Molmo en Qwen2-VL) op CAPTURe en constateren dat modellen moeite hebben met tellen in zowel verborgen als niet-verborgen patronen. Cruciaal is dat we ontdekken dat modellen slechter presteren bij occlusie, wat suggereert dat VLMs ook tekortschieten in het afleiden van onzichtbare ruimtelijke relaties: zelfs de sterkste VLMs zoals GPT-4o falen bij het tellen met occlusie. Daarentegen constateren we dat mensen zeer weinig fouten maken bij CAPTURe. We vinden ook dat het verstrekken van aanvullende informatie over de locaties van verborgen objecten de prestaties verbetert, wat benadrukt dat de modelfouten zowel voortkomen uit een onvermogen om met occlusie om te gaan als uit moeilijkheden met tellen in afbeeldingen.
English
Recognizing and reasoning about occluded (partially or fully hidden) objects
is vital to understanding visual scenes, as occlusions frequently occur in
real-world environments and act as obstacles for spatial comprehension. To test
models' ability to reason about multiple occluded objects, we introduce a novel
task, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), which
requires a model to count objects arranged in a pattern by inferring how the
pattern continues behind an occluder (an object which blocks parts of the
scene). CAPTURe requires both recognizing visual patterns and reasoning, making
it a useful testbed for evaluating vision-language models (VLMs) on whether
they understand occluded patterns and possess spatial understanding skills. By
requiring models to reason about occluded objects, CAPTURe also tests VLMs'
ability to form world models that would allow them to fill in missing
information. CAPTURe consists of two parts: (1) CAPTURe-real, with manually
filtered images of real objects in patterns and (2) CAPTURe-synthetic, a
controlled diagnostic with generated patterned images. We evaluate four strong
VLMs (GPT-4o, Intern-VL2, Molmo, and Qwen2-VL) on CAPTURe, finding that models
struggle to count on both occluded and unoccluded patterns. Crucially, we find
that models perform worse with occlusion, suggesting that VLMs are also
deficient in inferring unseen spatial relationships: even the strongest VLMs
like GPT-4o fail to count with occlusion. In contrast, we find that humans
achieve very little error on CAPTURe. We also find that providing auxiliary
information of occluded object locations increases performance, underscoring
that the model error comes both from an inability to handle occlusion as well
as difficulty counting in images.Summary
AI-Generated Summary