Perspectiefbewust redeneren in visueel-taalkundige modellen via mentale beeldvormingssimulatie
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation
April 24, 2025
Auteurs: Phillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung
cs.AI
Samenvatting
We presenteren een raamwerk voor perspectiefbewust redeneren in vision-language modellen (VLMs) door middel van mentale beeldsimulatie. Perspectiefname, het vermogen om een omgeving of situatie vanuit een alternatief gezichtspunt waar te nemen, is een belangrijke maatstaf voor menselijk niveau van visueel begrip, essentieel voor interactie met de omgeving en samenwerking met autonome agents. Ondanks vooruitgang in ruimtelijk redeneren binnen VLMs, heeft recent onderzoek aangetoond dat moderne VLMs aanzienlijk tekortschieten in perspectiefbewuste redeneervaardigheden en een sterke neiging vertonen naar egocentrische interpretaties. Om de kloof tussen VLMs en menselijke waarneming te overbruggen, richten we ons op de rol van mentale beelden, waarbij mensen de wereld waarnemen door middel van geabstraheerde representaties die perspectiefwisselingen vergemakkelijken. Gemotiveerd door dit inzicht, stellen we een raamwerk voor perspectiefbewust redeneren voor, genaamd Abstract Perspective Change (APC), dat effectief gebruikmaakt van vision foundation modellen, zoals objectdetectie, segmentatie en oriëntatieschatting, om scène-abstrakties te construeren en perspectief transformaties mogelijk te maken. Onze experimenten op synthetische en real-image benchmarks, vergeleken met verschillende VLMs, tonen significante verbeteringen aan in perspectiefbewust redeneren met ons raamwerk, waarbij het verder presteert dan fijn afgestelde ruimtelijke redeneermodellen en benaderingen gebaseerd op novel-view-synthese.
English
We present a framework for perspective-aware reasoning in vision-language
models (VLMs) through mental imagery simulation. Perspective-taking, the
ability to perceive an environment or situation from an alternative viewpoint,
is a key benchmark for human-level visual understanding, essential for
environmental interaction and collaboration with autonomous agents. Despite
advancements in spatial reasoning within VLMs, recent research has shown that
modern VLMs significantly lack perspective-aware reasoning capabilities and
exhibit a strong bias toward egocentric interpretations. To bridge the gap
between VLMs and human perception, we focus on the role of mental imagery,
where humans perceive the world through abstracted representations that
facilitate perspective shifts. Motivated by this, we propose a framework for
perspective-aware reasoning, named Abstract Perspective Change (APC), that
effectively leverages vision foundation models, such as object detection,
segmentation, and orientation estimation, to construct scene abstractions and
enable perspective transformations. Our experiments on synthetic and real-image
benchmarks, compared with various VLMs, demonstrate significant improvements in
perspective-aware reasoning with our framework, further outperforming
fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.Summary
AI-Generated Summary