ChatPaper.aiChatPaper

MSTS : Une suite de tests de sécurité multimodale pour les modèles vision-langage

MSTS: A Multimodal Safety Test Suite for Vision-Language Models

January 17, 2025
Auteurs: Paul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen
cs.AI

Résumé

Les modèles vision-langage (VLM), qui traitent des entrées d'images et de texte, sont de plus en plus intégrés dans les assistants de discussion et d'autres applications d'IA grand public. Cependant, sans les protections adéquates, les VLM peuvent donner des conseils nuisibles (par exemple, sur l'automutilation) ou encourager des comportements dangereux (par exemple, la consommation de drogues). Malgré ces risques évidents, peu de travaux ont évalué jusqu'à présent la sécurité des VLM et les nouveaux risques créés par les entrées multimodales. Pour combler cette lacune, nous présentons MSTS, une Suite de Tests de Sécurité Multimodale pour les VLM. MSTS comprend 400 invitations de test réparties dans 40 catégories de risques détaillées. Chaque invitation de test se compose d'un texte et d'une image qui, seulement en combinaison, révèlent pleinement leur sens dangereux. Avec MSTS, nous identifions des problèmes de sécurité évidents dans plusieurs VLM ouverts. Nous constatons également que certains VLM sont sûrs par accident, c'est-à-dire qu'ils sont sûrs car ils échouent à comprendre même des invitations de test simples. Nous traduisons MSTS en dix langues, en présentant des invitations non anglaises pour augmenter le taux de réponses dangereuses des modèles. Nous montrons également que les modèles sont plus sûrs lorsqu'ils sont testés uniquement avec du texte plutôt qu'avec des invitations multimodales. Enfin, nous explorons l'automatisation des évaluations de sécurité des VLM, constatant que même les meilleurs classificateurs de sécurité sont insuffisants.
English
Vision-language models (VLMs), which process image and text inputs, are increasingly integrated into chat assistants and other consumer AI applications. Without proper safeguards, however, VLMs may give harmful advice (e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs). Despite these clear hazards, little work so far has evaluated VLM safety and the novel risks created by multimodal inputs. To address this gap, we introduce MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts across 40 fine-grained hazard categories. Each test prompt consists of a text and an image that only in combination reveal their full unsafe meaning. With MSTS, we find clear safety issues in several open VLMs. We also find some VLMs to be safe by accident, meaning that they are safe because they fail to understand even simple test prompts. We translate MSTS into ten languages, showing non-English prompts to increase the rate of unsafe model responses. We also show models to be safer when tested with text only rather than multimodal prompts. Finally, we explore the automation of VLM safety assessments, finding even the best safety classifiers to be lacking.

Summary

AI-Generated Summary

PDF82January 22, 2025