Mente con Occhi: dal Ragionamento Linguistico al Ragionamento Multimodale
Mind with Eyes: from Language Reasoning to Multimodal Reasoning
March 23, 2025
Autori: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI
Abstract
I modelli linguistici hanno recentemente fatto progressi nel campo del ragionamento, ma è attraverso il ragionamento multimodale che possiamo sbloccare appieno il potenziale per raggiungere capacità cognitive più complete e simili a quelle umane. Questa rassegna fornisce una panoramica sistematica dei recenti approcci al ragionamento multimodale, classificandoli in due livelli: ragionamento multimodale centrato sul linguaggio e ragionamento multimodale collaborativo. Il primo comprende la percezione visiva in un passaggio e la percezione visiva attiva, in cui la visione svolge principalmente un ruolo di supporto nel ragionamento linguistico. Il secondo coinvolge la generazione di azioni e l'aggiornamento dello stato all'interno del processo di ragionamento, consentendo un'interazione più dinamica tra le modalità. Inoltre, analizziamo l'evoluzione tecnica di questi metodi, discutiamo le loro sfide intrinseche e introduciamo i principali compiti di benchmark e le metriche di valutazione per valutare le prestazioni del ragionamento multimodale. Infine, forniamo spunti per future direzioni di ricerca dalle seguenti due prospettive: (i) dal ragionamento visivo-linguistico al ragionamento omnimodale e (ii) dal ragionamento multimodale agli agenti multimodali. Questa rassegna mira a fornire una panoramica strutturata che ispiri ulteriori progressi nella ricerca sul ragionamento multimodale.
English
Language models have recently advanced into the realm of reasoning, yet it is
through multimodal reasoning that we can fully unlock the potential to achieve
more comprehensive, human-like cognitive capabilities. This survey provides a
systematic overview of the recent multimodal reasoning approaches, categorizing
them into two levels: language-centric multimodal reasoning and collaborative
multimodal reasoning. The former encompasses one-pass visual perception and
active visual perception, where vision primarily serves a supporting role in
language reasoning. The latter involves action generation and state update
within reasoning process, enabling a more dynamic interaction between
modalities. Furthermore, we analyze the technical evolution of these methods,
discuss their inherent challenges, and introduce key benchmark tasks and
evaluation metrics for assessing multimodal reasoning performance. Finally, we
provide insights into future research directions from the following two
perspectives: (i) from visual-language reasoning to omnimodal reasoning and
(ii) from multimodal reasoning to multimodal agents. This survey aims to
provide a structured overview that will inspire further advancements in
multimodal reasoning research.Summary
AI-Generated Summary