비전-언어 모델이 다중 비전 센서를 실제로 이해하고 있는가?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?
December 30, 2024
저자: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro
cs.AI
초록
대규모 비전-언어 모델(Vision-Language Models, VLMs)은 비전 입력과 텍스트를 조정함으로써 컴퓨터 비전 작업의 성능을 크게 향상시키며 발전해왔습니다. 또한, 실제 응용 프로그램에서 효과적으로 활용하기 위해서는 열, 깊이, X-선 정보와 같은 다양한 다중 비전 센서 데이터에 대한 이해가 필수적입니다. 그러나 현재 VLMs는 다중 비전 센서 이미지를 처리할 때 센서 정보에 대한 심층적인 이해 없이 각 센서의 고유한 물리적 특성을 무시합니다. 이 제한으로 인해 복잡한 다중 비전 센서 추론이 필요한 복잡한 질문에 대한 해석과 응답 능력이 제한됩니다. 이를 해결하기 위해 우리는 새로운 다중 비전 센서 지각 및 추론(Multi-vision Sensor Perception and Reasoning, MS-PR) 벤치마크를 제안하여 VLMs의 센서별 추론 능력을 평가합니다. 더불어, 다양한 부정적 특성(Diverse Negative Attributes, DNA) 최적화를 소개하여 VLMs가 다중 비전 센서 작업에 대해 심층적인 추론을 수행하도록 하고 이미지와 센서 데이터 간의 핵심 정보 간격을 줄이는 데 도움이 되도록 합니다. 방대한 실험 결과가 제안된 DNA 방법이 VLMs의 다중 비전 센서 추론을 크게 향상시킬 수 있다는 것을 검증합니다.
English
Large-scale Vision-Language Models (VLMs) have advanced by aligning vision
inputs with text, significantly improving performance in computer vision tasks.
Moreover, for VLMs to be effectively utilized in real-world applications, an
understanding of diverse multi-vision sensor data, such as thermal, depth, and
X-ray information, is essential. However, we find that current VLMs process
multi-vision sensor images without deep understanding of sensor information,
disregarding each sensor's unique physical properties. This limitation
restricts their capacity to interpret and respond to complex questions
requiring multi-vision sensor reasoning. To address this, we propose a novel
Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs
on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse
Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning
on multi-vision sensor tasks, helping to bridge the core information gap
between images and sensor data. Extensive experimental results validate that
the proposed DNA method can significantly improve the multi-vision sensor
reasoning for VLMs.Summary
AI-Generated Summary