Perspektivbewusstes Denken in Vision-Sprache-Modellen durch mentale Bildersimulation
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation
April 24, 2025
Autoren: Phillip Y. Lee, Jihyeon Je, Chanho Park, Mikaela Angelina Uy, Leonidas Guibas, Minhyuk Sung
cs.AI
Zusammenfassung
Wir präsentieren ein Framework für perspektivenbewusstes Denken in Vision-Sprache-Modellen (VLMs) durch die Simulation mentaler Bilder. Perspektivenübernahme, die Fähigkeit, eine Umgebung oder Situation aus einem alternativen Blickwinkel wahrzunehmen, ist ein zentraler Maßstab für menschenähnliches visuelles Verständnis, das für die Interaktion mit der Umwelt und die Zusammenarbeit mit autonomen Agenten unerlässlich ist. Trotz Fortschritten im Bereich des räumlichen Denkens in VLMs hat die jüngste Forschung gezeigt, dass moderne VLMs erheblich an perspektivenbewussten Denkfähigkeiten mangeln und eine starke Tendenz zu egozentrischen Interpretationen aufweisen. Um die Lücke zwischen VLMs und menschlicher Wahrnehmung zu schließen, konzentrieren wir uns auf die Rolle mentaler Bilder, bei denen Menschen die Welt durch abstrahierte Darstellungen wahrnehmen, die Perspektivwechsel erleichtern. Motiviert durch diese Erkenntnis schlagen wir ein Framework für perspektivenbewusstes Denken vor, genannt Abstract Perspective Change (APC), das Vision-Foundation-Modelle wie Objekterkennung, Segmentierung und Orientierungsschätzung effektiv nutzt, um Szenenabstraktionen zu konstruieren und Perspektivtransformationen zu ermöglichen. Unsere Experimente auf synthetischen und realen Bild-Benchmarks, im Vergleich mit verschiedenen VLMs, zeigen signifikante Verbesserungen im perspektivenbewussten Denken durch unser Framework, das darüber hinaus feinabgestimmte räumliche Denkmodelle und neuartige Ansätze auf Basis der Synthese neuer Ansichten übertrifft.
English
We present a framework for perspective-aware reasoning in vision-language
models (VLMs) through mental imagery simulation. Perspective-taking, the
ability to perceive an environment or situation from an alternative viewpoint,
is a key benchmark for human-level visual understanding, essential for
environmental interaction and collaboration with autonomous agents. Despite
advancements in spatial reasoning within VLMs, recent research has shown that
modern VLMs significantly lack perspective-aware reasoning capabilities and
exhibit a strong bias toward egocentric interpretations. To bridge the gap
between VLMs and human perception, we focus on the role of mental imagery,
where humans perceive the world through abstracted representations that
facilitate perspective shifts. Motivated by this, we propose a framework for
perspective-aware reasoning, named Abstract Perspective Change (APC), that
effectively leverages vision foundation models, such as object detection,
segmentation, and orientation estimation, to construct scene abstractions and
enable perspective transformations. Our experiments on synthetic and real-image
benchmarks, compared with various VLMs, demonstrate significant improvements in
perspective-aware reasoning with our framework, further outperforming
fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.Summary
AI-Generated Summary