Os Modelos de Visão-Linguagem Realmente Estão Compreendendo Sensores Multivisão?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?
December 30, 2024
Autores: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro
cs.AI
Resumo
Os Modelos de Visão-Linguagem em larga escala (VLMs) avançaram ao alinhar entradas de visão com texto, melhorando significativamente o desempenho em tarefas de visão computacional. Além disso, para que os VLMs sejam utilizados de forma eficaz em aplicações do mundo real, é essencial compreender dados de sensores multi-visão diversos, como informações térmicas, de profundidade e de raio-X. No entanto, observamos que os VLMs atuais processam imagens de sensores multi-visão sem um entendimento profundo das informações do sensor, ignorando as propriedades físicas únicas de cada sensor. Essa limitação restringe sua capacidade de interpretar e responder a perguntas complexas que exigem raciocínio de sensores multi-visão. Para lidar com isso, propomos um novo benchmark de Percepção e Raciocínio de Sensores Multi-visão (MS-PR), avaliando os VLMs em sua capacidade de raciocínio específico do sensor. Além disso, introduzimos a otimização de Atributos Negativos Diversos (DNA) para capacitar os VLMs a realizar um raciocínio profundo em tarefas de sensores multi-visão, ajudando a preencher a lacuna de informação fundamental entre imagens e dados do sensor. Resultados experimentais extensos validam que o método DNA proposto pode melhorar significativamente o raciocínio de sensores multi-visão para os VLMs.
English
Large-scale Vision-Language Models (VLMs) have advanced by aligning vision
inputs with text, significantly improving performance in computer vision tasks.
Moreover, for VLMs to be effectively utilized in real-world applications, an
understanding of diverse multi-vision sensor data, such as thermal, depth, and
X-ray information, is essential. However, we find that current VLMs process
multi-vision sensor images without deep understanding of sensor information,
disregarding each sensor's unique physical properties. This limitation
restricts their capacity to interpret and respond to complex questions
requiring multi-vision sensor reasoning. To address this, we propose a novel
Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs
on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse
Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning
on multi-vision sensor tasks, helping to bridge the core information gap
between images and sensor data. Extensive experimental results validate that
the proposed DNA method can significantly improve the multi-vision sensor
reasoning for VLMs.Summary
AI-Generated Summary