ビジョン言語モデルは本当にマルチビジョンセンサーを理解しているのか?
Are Vision-Language Models Truly Understanding Multi-vision Sensor?
December 30, 2024
著者: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro
cs.AI
要旨
大規模ビジョン言語モデル(VLMs)は、ビジョン入力をテキストと整合させることで、コンピュータビジョンタスクのパフォーマンスを大幅に向上させてきました。さらに、VLMsを実世界のアプリケーションで効果的に活用するためには、サーマル、深度、X線など多様なマルチビジョンセンサーデータの理解が不可欠です。しかし、現在のVLMsは、センサー情報の深い理解なしにマルチビジョンセンサー画像を処理しており、各センサー固有の物理特性を無視しています。この制限により、複数のビジョンセンサー推論が必要な複雑な問いに対応する能力が制限されています。この課題に対処するため、私たちは新しいマルチビジョンセンサー認識および推論(MS-PR)ベンチマークを提案し、VLMsのセンサー固有の推論能力を評価します。さらに、多様なネガティブ属性(DNA)最適化を導入して、VLMsがマルチビジョンセンサータスクで深い推論を行うことを可能にし、画像とセンサーデータ間の核心情報ギャップを埋めるのに役立ちます。幅広い実験結果が、提案されたDNA手法がVLMsのマルチビジョンセンサー推論を大幅に改善できることを検証しています。
English
Large-scale Vision-Language Models (VLMs) have advanced by aligning vision
inputs with text, significantly improving performance in computer vision tasks.
Moreover, for VLMs to be effectively utilized in real-world applications, an
understanding of diverse multi-vision sensor data, such as thermal, depth, and
X-ray information, is essential. However, we find that current VLMs process
multi-vision sensor images without deep understanding of sensor information,
disregarding each sensor's unique physical properties. This limitation
restricts their capacity to interpret and respond to complex questions
requiring multi-vision sensor reasoning. To address this, we propose a novel
Multi-vision Sensor Perception and Reasoning (MS-PR) benchmark, assessing VLMs
on their capacity for sensor-specific reasoning. Moreover, we introduce Diverse
Negative Attributes (DNA) optimization to enable VLMs to perform deep reasoning
on multi-vision sensor tasks, helping to bridge the core information gap
between images and sensor data. Extensive experimental results validate that
the proposed DNA method can significantly improve the multi-vision sensor
reasoning for VLMs.Summary
AI-Generated Summary