I Modelli Visione-Linguaggio Comprendono Veramente i Sensori Multi-Visione?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?
December 30, 2024
Autori: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro
cs.AI
Abstract
I modelli di Visione-Linguaggio su larga scala (VLM) hanno progredito allineando gli input visivi con il testo, migliorando significativamente le prestazioni nei compiti di visione artificiale. Inoltre, affinché i VLM siano utilizzati in modo efficace nelle applicazioni del mondo reale, è essenziale comprendere dati multi-sensoriali di visione diversificati, come informazioni termiche, di profondità e raggi X. Tuttavia, osserviamo che i VLM attuali elaborano immagini da sensori multi-visione senza una profonda comprensione delle informazioni del sensore, ignorando le proprietà fisiche uniche di ciascun sensore. Questa limitazione riduce la capacità di interpretare e rispondere a domande complesse che richiedono ragionamento multi-sensoriale. Per affrontare questo problema, proponiamo un nuovo benchmark di Percezione e Ragionamento Multi-sensoriale (MS-PR), valutando i VLM sulla loro capacità di ragionamento specifico del sensore. Inoltre, introduciamo l'ottimizzazione degli Attributi Negativi Diversi (DNA) per consentire ai VLM di eseguire un ragionamento profondo su compiti multi-sensoriali di visione, contribuendo a colmare il divario informativo fondamentale tra le immagini e i dati del sensore. Risultati sperimentali estesi confermano che il metodo DNA proposto può migliorare significativamente il ragionamento multi-sensoriale per i VLM.
English
Large-scale Vision-Language Models (VLMs) have advanced by aligning vision
inputs with text, significantly improving performance in computer vision tasks.
Moreover, for VLMs to be effectively utilized in real-world applications, an
understanding of diverse multi-vision sensor data, such as thermal, depth, and
X-ray information, is essential. However, we find that current VLMs process
multi-vision sensor images without deep understanding of sensor information,
disregarding each sensor's unique physical properties. This limitation
restricts their capacity to interpret and respond to complex questions
requiring multi-vision sensor reasoning. To address this, we propose a novel
Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs
on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse
Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning
on multi-vision sensor tasks, helping to bridge the core information gap
between images and sensor data. Extensive experimental results validate that
the proposed DNA method can significantly improve the multi-vision sensor
reasoning for VLMs.Summary
AI-Generated Summary