Grundlegende Kategorienutzung in visuellen Sprachmodellen
Basic Category Usage in Vision Language Models
March 16, 2025
Autoren: Hunter Sawyer, Jesse Roberts, Kyle Moore
cs.AI
Zusammenfassung
Die Psychologie hat seit langem eine grundlegende Ebene der Kategorisierung anerkannt, die Menschen bei der Benennung visueller Reize verwenden, ein Begriff, der 1976 von Rosch geprägt wurde. Es wurde festgestellt, dass diese Kategorisierungsebene am häufigsten verwendet wird, eine höhere Informationsdichte aufweist und bei visuellen Sprachaufgaben mit Priming bei Menschen hilfreich ist. Hier untersuchen wir die grundlegende Kategorisierungsebene in zwei kürzlich veröffentlichten, quelloffenen Vision-Language-Modellen (VLMs). Diese Arbeit zeigt, dass sowohl Llama 3.2 Vision Instruct (11B) als auch Molmo 7B-D eine grundlegende Kategorisierungsebene bevorzugen, die mit dem menschlichen Verhalten übereinstimmt. Darüber hinaus stimmen die Präferenzen der Modelle mit subtilen menschlichen Verhaltensweisen überein, wie den biologischen versus nicht-biologischen grundlegenden Effekten und der gut etablierten Expertenverschiebung auf der grundlegenden Ebene, was weiter darauf hindeutet, dass VLMs kognitive Kategorisierungsverhalten aus den menschlichen Daten erwerben, auf denen sie trainiert wurden.
English
The field of psychology has long recognized a basic level of categorization
that humans use when labeling visual stimuli, a term coined by Rosch in 1976.
This level of categorization has been found to be used most frequently, to have
higher information density, and to aid in visual language tasks with priming in
humans. Here, we investigate basic level categorization in two recently
released, open-source vision-language models (VLMs). This paper demonstrates
that Llama 3.2 Vision Instruct (11B) and Molmo 7B-D both prefer basic level
categorization consistent with human behavior. Moreover, the models'
preferences are consistent with nuanced human behaviors like the biological
versus non-biological basic level effects and the well established expert basic
level shift, further suggesting that VLMs acquire cognitive categorization
behaviors from the human data on which they are trained.Summary
AI-Generated Summary