Grundlegende Kategorienutzung in visuellen Sprachmodellen

Zusammenfassung

Die Psychologie hat seit langem eine grundlegende Ebene der Kategorisierung anerkannt, die Menschen bei der Benennung visueller Reize verwenden, ein Begriff, der 1976 von Rosch geprägt wurde. Es wurde festgestellt, dass diese Kategorisierungsebene am häufigsten verwendet wird, eine höhere Informationsdichte aufweist und bei visuellen Sprachaufgaben mit Priming bei Menschen hilfreich ist. Hier untersuchen wir die grundlegende Kategorisierungsebene in zwei kürzlich veröffentlichten, quelloffenen Vision-Language-Modellen (VLMs). Diese Arbeit zeigt, dass sowohl Llama 3.2 Vision Instruct (11B) als auch Molmo 7B-D eine grundlegende Kategorisierungsebene bevorzugen, die mit dem menschlichen Verhalten übereinstimmt. Darüber hinaus stimmen die Präferenzen der Modelle mit subtilen menschlichen Verhaltensweisen überein, wie den biologischen versus nicht-biologischen grundlegenden Effekten und der gut etablierten Expertenverschiebung auf der grundlegenden Ebene, was weiter darauf hindeutet, dass VLMs kognitive Kategorisierungsverhalten aus den menschlichen Daten erwerben, auf denen sie trainiert wurden.

English

The field of psychology has long recognized a basic level of categorization that humans use when labeling visual stimuli, a term coined by Rosch in 1976. This level of categorization has been found to be used most frequently, to have higher information density, and to aid in visual language tasks with priming in humans. Here, we investigate basic level categorization in two recently released, open-source vision-language models (VLMs). This paper demonstrates that Llama 3.2 Vision Instruct (11B) and Molmo 7B-D both prefer basic level categorization consistent with human behavior. Moreover, the models' preferences are consistent with nuanced human behaviors like the biological versus non-biological basic level effects and the well established expert basic level shift, further suggesting that VLMs acquire cognitive categorization behaviors from the human data on which they are trained.

Grundlegende Kategorienutzung in visuellen Sprachmodellen

Basic Category Usage in Vision Language Models

Zusammenfassung

Summary

Support

Support