Geist mit Augen: Von der Sprachlogik zur multimodalen Logik
Mind with Eyes: from Language Reasoning to Multimodal Reasoning
March 23, 2025
Autoren: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI
Zusammenfassung
Sprachmodelle haben in jüngster Zeit Fortschritte im Bereich des Denkens gemacht, doch erst durch multimodales Denken können wir das Potenzial voll ausschöpfen, um umfassendere, menschenähnliche kognitive Fähigkeiten zu erreichen. Diese Übersichtsarbeit bietet einen systematischen Überblick über die jüngsten Ansätze des multimodalen Denkens und kategorisiert sie in zwei Ebenen: sprachzentriertes multimodales Denken und kollaboratives multimodales Denken. Erstere umfasst Ein-Schritt-Wahrnehmung und aktive visuelle Wahrnehmung, bei der das Sehen hauptsächlich eine unterstützende Rolle im Sprachdenken spielt. Letztere beinhaltet die Generierung von Aktionen und die Aktualisierung des Zustands innerhalb des Denkprozesses, was eine dynamischere Interaktion zwischen den Modalitäten ermöglicht. Darüber hinaus analysieren wir die technische Entwicklung dieser Methoden, diskutieren ihre inhärenten Herausforderungen und stellen wichtige Benchmark-Aufgaben und Bewertungsmetriken zur Beurteilung der Leistung des multimodalen Denkens vor. Schließlich geben wir Einblicke in zukünftige Forschungsrichtungen aus den folgenden beiden Perspektiven: (i) vom visuell-sprachlichen Denken zum omnimodalen Denken und (ii) vom multimodalen Denken zu multimodalen Agenten. Diese Übersichtsarbeit zielt darauf ab, einen strukturierten Überblick zu bieten, der weitere Fortschritte in der Forschung zum multimodalen Denken inspirieren soll.
English
Language models have recently advanced into the realm of reasoning, yet it is
through multimodal reasoning that we can fully unlock the potential to achieve
more comprehensive, human-like cognitive capabilities. This survey provides a
systematic overview of the recent multimodal reasoning approaches, categorizing
them into two levels: language-centric multimodal reasoning and collaborative
multimodal reasoning. The former encompasses one-pass visual perception and
active visual perception, where vision primarily serves a supporting role in
language reasoning. The latter involves action generation and state update
within reasoning process, enabling a more dynamic interaction between
modalities. Furthermore, we analyze the technical evolution of these methods,
discuss their inherent challenges, and introduce key benchmark tasks and
evaluation metrics for assessing multimodal reasoning performance. Finally, we
provide insights into future research directions from the following two
perspectives: (i) from visual-language reasoning to omnimodal reasoning and
(ii) from multimodal reasoning to multimodal agents. This survey aims to
provide a structured overview that will inspire further advancements in
multimodal reasoning research.Summary
AI-Generated Summary