Raisonnement conscient de la perspective dans les modèles vision-langage via la simulation d'imagerie mentale

Résumé

Nous présentons un cadre pour le raisonnement prenant en compte la perspective dans les modèles vision-langage (VLMs) à travers la simulation d'imagerie mentale. La prise de perspective, c'est-à-dire la capacité à percevoir un environnement ou une situation depuis un point de vue alternatif, constitue un critère essentiel pour une compréhension visuelle de niveau humain, cruciale pour l'interaction avec l'environnement et la collaboration avec des agents autonomes. Malgré les avancées dans le raisonnement spatial au sein des VLMs, des recherches récentes ont montré que les VLMs modernes manquent significativement de capacités de raisonnement prenant en compte la perspective et présentent un biais marqué en faveur d'interprétations égocentriques. Pour combler l'écart entre les VLMs et la perception humaine, nous nous concentrons sur le rôle de l'imagerie mentale, où les humains perçoivent le monde à travers des représentations abstraites qui facilitent les changements de perspective. Motivés par cela, nous proposons un cadre pour le raisonnement prenant en compte la perspective, nommé Changement de Perspective Abstraite (APC), qui exploite efficacement des modèles de base en vision, tels que la détection d'objets, la segmentation et l'estimation d'orientation, pour construire des abstractions de scène et permettre des transformations de perspective. Nos expériences sur des benchmarks d'images synthétiques et réelles, comparées à divers VLMs, démontrent des améliorations significatives dans le raisonnement prenant en compte la perspective avec notre cadre, surpassant en outre les modèles de raisonnement spatial affinés et les approches basées sur la synthèse de nouvelles vues.

English

We present a framework for perspective-aware reasoning in vision-language models (VLMs) through mental imagery simulation. Perspective-taking, the ability to perceive an environment or situation from an alternative viewpoint, is a key benchmark for human-level visual understanding, essential for environmental interaction and collaboration with autonomous agents. Despite advancements in spatial reasoning within VLMs, recent research has shown that modern VLMs significantly lack perspective-aware reasoning capabilities and exhibit a strong bias toward egocentric interpretations. To bridge the gap between VLMs and human perception, we focus on the role of mental imagery, where humans perceive the world through abstracted representations that facilitate perspective shifts. Motivated by this, we propose a framework for perspective-aware reasoning, named Abstract Perspective Change (APC), that effectively leverages vision foundation models, such as object detection, segmentation, and orientation estimation, to construct scene abstractions and enable perspective transformations. Our experiments on synthetic and real-image benchmarks, compared with various VLMs, demonstrate significant improvements in perspective-aware reasoning with our framework, further outperforming fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.

Raisonnement conscient de la perspective dans les modèles vision-langage via la simulation d'imagerie mentale

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

Résumé

Summary

Support

Support