ChatPaper.aiChatPaper

Geist mit Augen: Von der Sprachlogik zur multimodalen Logik

Mind with Eyes: from Language Reasoning to Multimodal Reasoning

March 23, 2025
Autoren: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI

Zusammenfassung

Sprachmodelle haben in jüngster Zeit Fortschritte im Bereich des Denkens gemacht, doch erst durch multimodales Denken können wir das Potenzial voll ausschöpfen, um umfassendere, menschenähnliche kognitive Fähigkeiten zu erreichen. Diese Übersichtsarbeit bietet einen systematischen Überblick über die jüngsten Ansätze des multimodalen Denkens und kategorisiert sie in zwei Ebenen: sprachzentriertes multimodales Denken und kollaboratives multimodales Denken. Erstere umfasst Ein-Schritt-Wahrnehmung und aktive visuelle Wahrnehmung, bei der das Sehen hauptsächlich eine unterstützende Rolle im Sprachdenken spielt. Letztere beinhaltet die Generierung von Aktionen und die Aktualisierung des Zustands innerhalb des Denkprozesses, was eine dynamischere Interaktion zwischen den Modalitäten ermöglicht. Darüber hinaus analysieren wir die technische Entwicklung dieser Methoden, diskutieren ihre inhärenten Herausforderungen und stellen wichtige Benchmark-Aufgaben und Bewertungsmetriken zur Beurteilung der Leistung des multimodalen Denkens vor. Schließlich geben wir Einblicke in zukünftige Forschungsrichtungen aus den folgenden beiden Perspektiven: (i) vom visuell-sprachlichen Denken zum omnimodalen Denken und (ii) vom multimodalen Denken zu multimodalen Agenten. Diese Übersichtsarbeit zielt darauf ab, einen strukturierten Überblick zu bieten, der weitere Fortschritte in der Forschung zum multimodalen Denken inspirieren soll.
English
Language models have recently advanced into the realm of reasoning, yet it is through multimodal reasoning that we can fully unlock the potential to achieve more comprehensive, human-like cognitive capabilities. This survey provides a systematic overview of the recent multimodal reasoning approaches, categorizing them into two levels: language-centric multimodal reasoning and collaborative multimodal reasoning. The former encompasses one-pass visual perception and active visual perception, where vision primarily serves a supporting role in language reasoning. The latter involves action generation and state update within reasoning process, enabling a more dynamic interaction between modalities. Furthermore, we analyze the technical evolution of these methods, discuss their inherent challenges, and introduce key benchmark tasks and evaluation metrics for assessing multimodal reasoning performance. Finally, we provide insights into future research directions from the following two perspectives: (i) from visual-language reasoning to omnimodal reasoning and (ii) from multimodal reasoning to multimodal agents. This survey aims to provide a structured overview that will inspire further advancements in multimodal reasoning research.

Summary

AI-Generated Summary

PDF32March 25, 2025