Perspektivbewusstes Denken in Vision-Sprache-Modellen durch mentale Bildersimulation

Zusammenfassung

Wir präsentieren ein Framework für perspektivenbewusstes Denken in Vision-Sprache-Modellen (VLMs) durch die Simulation mentaler Bilder. Perspektivenübernahme, die Fähigkeit, eine Umgebung oder Situation aus einem alternativen Blickwinkel wahrzunehmen, ist ein zentraler Maßstab für menschenähnliches visuelles Verständnis, das für die Interaktion mit der Umwelt und die Zusammenarbeit mit autonomen Agenten unerlässlich ist. Trotz Fortschritten im Bereich des räumlichen Denkens in VLMs hat die jüngste Forschung gezeigt, dass moderne VLMs erheblich an perspektivenbewussten Denkfähigkeiten mangeln und eine starke Tendenz zu egozentrischen Interpretationen aufweisen. Um die Lücke zwischen VLMs und menschlicher Wahrnehmung zu schließen, konzentrieren wir uns auf die Rolle mentaler Bilder, bei denen Menschen die Welt durch abstrahierte Darstellungen wahrnehmen, die Perspektivwechsel erleichtern. Motiviert durch diese Erkenntnis schlagen wir ein Framework für perspektivenbewusstes Denken vor, genannt Abstract Perspective Change (APC), das Vision-Foundation-Modelle wie Objekterkennung, Segmentierung und Orientierungsschätzung effektiv nutzt, um Szenenabstraktionen zu konstruieren und Perspektivtransformationen zu ermöglichen. Unsere Experimente auf synthetischen und realen Bild-Benchmarks, im Vergleich mit verschiedenen VLMs, zeigen signifikante Verbesserungen im perspektivenbewussten Denken durch unser Framework, das darüber hinaus feinabgestimmte räumliche Denkmodelle und neuartige Ansätze auf Basis der Synthese neuer Ansichten übertrifft.

English

We present a framework for perspective-aware reasoning in vision-language models (VLMs) through mental imagery simulation. Perspective-taking, the ability to perceive an environment or situation from an alternative viewpoint, is a key benchmark for human-level visual understanding, essential for environmental interaction and collaboration with autonomous agents. Despite advancements in spatial reasoning within VLMs, recent research has shown that modern VLMs significantly lack perspective-aware reasoning capabilities and exhibit a strong bias toward egocentric interpretations. To bridge the gap between VLMs and human perception, we focus on the role of mental imagery, where humans perceive the world through abstracted representations that facilitate perspective shifts. Motivated by this, we propose a framework for perspective-aware reasoning, named Abstract Perspective Change (APC), that effectively leverages vision foundation models, such as object detection, segmentation, and orientation estimation, to construct scene abstractions and enable perspective transformations. Our experiments on synthetic and real-image benchmarks, compared with various VLMs, demonstrate significant improvements in perspective-aware reasoning with our framework, further outperforming fine-tuned spatial reasoning models and novel-view-synthesis-based approaches.

Perspektivbewusstes Denken in Vision-Sprache-Modellen durch mentale Bildersimulation

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

Zusammenfassung

Summary

Support

Support