ChatPaper.aiChatPaper

Mente con Occhi: dal Ragionamento Linguistico al Ragionamento Multimodale

Mind with Eyes: from Language Reasoning to Multimodal Reasoning

March 23, 2025
Autori: Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang
cs.AI

Abstract

I modelli linguistici hanno recentemente fatto progressi nel campo del ragionamento, ma è attraverso il ragionamento multimodale che possiamo sbloccare appieno il potenziale per raggiungere capacità cognitive più complete e simili a quelle umane. Questa rassegna fornisce una panoramica sistematica dei recenti approcci al ragionamento multimodale, classificandoli in due livelli: ragionamento multimodale centrato sul linguaggio e ragionamento multimodale collaborativo. Il primo comprende la percezione visiva in un passaggio e la percezione visiva attiva, in cui la visione svolge principalmente un ruolo di supporto nel ragionamento linguistico. Il secondo coinvolge la generazione di azioni e l'aggiornamento dello stato all'interno del processo di ragionamento, consentendo un'interazione più dinamica tra le modalità. Inoltre, analizziamo l'evoluzione tecnica di questi metodi, discutiamo le loro sfide intrinseche e introduciamo i principali compiti di benchmark e le metriche di valutazione per valutare le prestazioni del ragionamento multimodale. Infine, forniamo spunti per future direzioni di ricerca dalle seguenti due prospettive: (i) dal ragionamento visivo-linguistico al ragionamento omnimodale e (ii) dal ragionamento multimodale agli agenti multimodali. Questa rassegna mira a fornire una panoramica strutturata che ispiri ulteriori progressi nella ricerca sul ragionamento multimodale.
English
Language models have recently advanced into the realm of reasoning, yet it is through multimodal reasoning that we can fully unlock the potential to achieve more comprehensive, human-like cognitive capabilities. This survey provides a systematic overview of the recent multimodal reasoning approaches, categorizing them into two levels: language-centric multimodal reasoning and collaborative multimodal reasoning. The former encompasses one-pass visual perception and active visual perception, where vision primarily serves a supporting role in language reasoning. The latter involves action generation and state update within reasoning process, enabling a more dynamic interaction between modalities. Furthermore, we analyze the technical evolution of these methods, discuss their inherent challenges, and introduce key benchmark tasks and evaluation metrics for assessing multimodal reasoning performance. Finally, we provide insights into future research directions from the following two perspectives: (i) from visual-language reasoning to omnimodal reasoning and (ii) from multimodal reasoning to multimodal agents. This survey aims to provide a structured overview that will inspire further advancements in multimodal reasoning research.

Summary

AI-Generated Summary

PDF32March 25, 2025