Raisonnement conscient de la perspective dans les modèles vision-langage via la simulation d'imagerie mentale
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation
April 24, 2025
Auteurs: Phillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung
cs.AI
Résumé
Nous présentons un cadre pour le raisonnement prenant en compte la perspective dans les modèles vision-langage (VLMs) à travers la simulation d'imagerie mentale. La prise de perspective, c'est-à-dire la capacité à percevoir un environnement ou une situation depuis un point de vue alternatif, constitue un critère essentiel pour une compréhension visuelle de niveau humain, cruciale pour l'interaction avec l'environnement et la collaboration avec des agents autonomes. Malgré les avancées dans le raisonnement spatial au sein des VLMs, des recherches récentes ont montré que les VLMs modernes manquent significativement de capacités de raisonnement prenant en compte la perspective et présentent un biais marqué en faveur d'interprétations égocentriques. Pour combler l'écart entre les VLMs et la perception humaine, nous nous concentrons sur le rôle de l'imagerie mentale, où les humains perçoivent le monde à travers des représentations abstraites qui facilitent les changements de perspective. Motivés par cela, nous proposons un cadre pour le raisonnement prenant en compte la perspective, nommé Changement de Perspective Abstraite (APC), qui exploite efficacement des modèles de base en vision, tels que la détection d'objets, la segmentation et l'estimation d'orientation, pour construire des abstractions de scène et permettre des transformations de perspective. Nos expériences sur des benchmarks d'images synthétiques et réelles, comparées à divers VLMs, démontrent des améliorations significatives dans le raisonnement prenant en compte la perspective avec notre cadre, surpassant en outre les modèles de raisonnement spatial affinés et les approches basées sur la synthèse de nouvelles vues.
English
We present a framework for perspective-aware reasoning in vision-language
models (VLMs) through mental imagery simulation. Perspective-taking, the
ability to perceive an environment or situation from an alternative viewpoint,
is a key benchmark for human-level visual understanding, essential for
environmental interaction and collaboration with autonomous agents. Despite
advancements in spatial reasoning within VLMs, recent research has shown that
modern VLMs significantly lack perspective-aware reasoning capabilities and
exhibit a strong bias toward egocentric interpretations. To bridge the gap
between VLMs and human perception, we focus on the role of mental imagery,
where humans perceive the world through abstracted representations that
facilitate perspective shifts. Motivated by this, we propose a framework for
perspective-aware reasoning, named Abstract Perspective Change (APC), that
effectively leverages vision foundation models, such as object detection,
segmentation, and orientation estimation, to construct scene abstractions and
enable perspective transformations. Our experiments on synthetic and real-image
benchmarks, compared with various VLMs, demonstrate significant improvements in
perspective-aware reasoning with our framework, further outperforming
fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.Summary
AI-Generated Summary