ColorBench: I modelli linguistici visivi possono vedere e comprendere il mondo colorato? Un benchmark completo per la percezione del colore, il ragionamento e la robustezza
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
April 10, 2025
Autori: Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou
cs.AI
Abstract
Il colore svolge un ruolo importante nella percezione umana e fornisce solitamente indizi cruciali nel ragionamento visivo. Tuttavia, non è chiaro se e come i modelli visione-linguaggio (VLMs) possano percepire, comprendere e sfruttare il colore come gli esseri umani. Questo articolo introduce ColorBench, un benchmark innovativo meticolosamente progettato per valutare le capacità dei VLMs nella comprensione del colore, inclusa la percezione del colore, il ragionamento e la robustezza. Curando una serie di scenari di test diversificati, con un ancoraggio in applicazioni reali, ColorBench valuta come questi modelli percepiscono i colori, inferiscono significati da indizi basati sul colore e mantengono prestazioni consistenti sotto varie trasformazioni cromatiche. Attraverso una valutazione estensiva di 32 VLMs con diversi modelli linguistici e encoder visivi, il nostro articolo rivela alcune scoperte inedite: (i) La legge di scala (i modelli più grandi sono migliori) continua a valere su ColorBench, mentre il modello linguistico svolge un ruolo più importante rispetto all'encoder visivo. (ii) Tuttavia, le differenze di prestazione tra i modelli sono relativamente piccole, indicando che la comprensione del colore è stata largamente trascurata dai VLMs esistenti. (iii) Il ragionamento CoT migliora le accuratezze e la robustezza nella comprensione del colore, nonostante si tratti di compiti centrati sulla visione. (iv) Gli indizi cromatici sono effettivamente sfruttati dai VLMs su ColorBench, ma possono anche fuorviare i modelli in alcuni compiti. Questi risultati evidenziano le limitazioni critiche degli attuali VLMs e sottolineano la necessità di migliorare la comprensione del colore. Il nostro ColorBench può servire come strumento fondamentale per avanzare lo studio della comprensione del colore a livello umano nell'IA multimodale.
English
Color plays an important role in human perception and usually provides
critical clues in visual reasoning. However, it is unclear whether and how
vision-language models (VLMs) can perceive, understand, and leverage color as
humans. This paper introduces ColorBench, an innovative benchmark meticulously
crafted to assess the capabilities of VLMs in color understanding, including
color perception, reasoning, and robustness. By curating a suite of diverse
test scenarios, with grounding in real applications, ColorBench evaluates how
these models perceive colors, infer meanings from color-based cues, and
maintain consistent performance under varying color transformations. Through an
extensive evaluation of 32 VLMs with varying language models and vision
encoders, our paper reveals some undiscovered findings: (i) The scaling law
(larger models are better) still holds on ColorBench, while the language model
plays a more important role than the vision encoder. (ii) However, the
performance gaps across models are relatively small, indicating that color
understanding has been largely neglected by existing VLMs. (iii) CoT reasoning
improves color understanding accuracies and robustness, though they are
vision-centric tasks. (iv) Color clues are indeed leveraged by VLMs on
ColorBench but they can also mislead models in some tasks. These findings
highlight the critical limitations of current VLMs and underscore the need to
enhance color comprehension. Our ColorBenchcan serve as a foundational tool for
advancing the study of human-level color understanding of multimodal AI.Summary
AI-Generated Summary