MSTS: Een Multimodale Veiligheidstest Suite voor Visie-Taal Modellen
MSTS: A Multimodal Safety Test Suite for Vision-Language Models
January 17, 2025
Auteurs: Paul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen
cs.AI
Samenvatting
Visie-taalmodellen (VLM's), die beeld- en tekstinvoer verwerken, worden steeds vaker geïntegreerd in chatassistenten en andere consumenten AI-toepassingen. Zonder de juiste waarborgen kunnen VLM's echter schadelijk advies geven (bijv. hoe zelfbeschadiging te plegen) of onveilig gedrag aanmoedigen (bijv. drugs te consumeren). Ondanks deze duidelijke gevaren is er tot nu toe weinig werk verricht om de veiligheid van VLM's te evalueren en de nieuwe risico's die worden gecreëerd door multimodale invoer. Om deze lacune aan te pakken, introduceren we MSTS, een Multimodaal Veiligheidstestpakket voor VLM's. MSTS bestaat uit 400 testprompten over 40 fijnmazige gevaarcategorieën. Elke testprompt bestaat uit een tekst en een afbeelding die alleen in combinatie hun volledige onveilige betekenis onthullen. Met MSTS vinden we duidelijke veiligheidsproblemen in verschillende open VLM's. We vinden ook dat sommige VLM's per ongeluk veilig zijn, wat betekent dat ze veilig zijn omdat ze zelfs eenvoudige testprompten niet begrijpen. We vertalen MSTS naar tien talen, waarbij niet-Engelse prompts worden getoond om het aantal onveilige modelreacties te verhogen. We tonen ook aan dat modellen veiliger zijn wanneer ze worden getest met alleen tekst in plaats van multimodale prompts. Tot slot verkennen we de automatisering van VLM-veiligheidsevaluaties en vinden zelfs de beste veiligheidsclassificeerders tekort te schieten.
English
Vision-language models (VLMs), which process image and text inputs, are
increasingly integrated into chat assistants and other consumer AI
applications. Without proper safeguards, however, VLMs may give harmful advice
(e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs).
Despite these clear hazards, little work so far has evaluated VLM safety and
the novel risks created by multimodal inputs. To address this gap, we introduce
MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts
across 40 fine-grained hazard categories. Each test prompt consists of a text
and an image that only in combination reveal their full unsafe meaning. With
MSTS, we find clear safety issues in several open VLMs. We also find some VLMs
to be safe by accident, meaning that they are safe because they fail to
understand even simple test prompts. We translate MSTS into ten languages,
showing non-English prompts to increase the rate of unsafe model responses. We
also show models to be safer when tested with text only rather than multimodal
prompts. Finally, we explore the automation of VLM safety assessments, finding
even the best safety classifiers to be lacking.Summary
AI-Generated Summary