ChatPaper.aiChatPaper

MSTS: Eine Multimodale Sicherheits-Testreihe für Vision-Sprach-Modelle

MSTS: A Multimodal Safety Test Suite for Vision-Language Models

January 17, 2025
Autoren: Paul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen
cs.AI

Zusammenfassung

Vision-Sprach-Modelle (VSM), die Bild- und Texteingaben verarbeiten, werden zunehmend in Chat-Assistenten und anderen KI-Anwendungen für Verbraucher integriert. Ohne angemessene Sicherheitsvorkehrungen könnten VSM jedoch schädliche Ratschläge (z. B. zur Selbstverletzung) geben oder unsicheres Verhalten fördern (z. B. den Konsum von Drogen). Trotz dieser offensichtlichen Gefahren wurde die Sicherheit von VSM bisher kaum untersucht, ebenso wenig wie die neuartigen Risiken, die durch multimodale Eingaben entstehen. Um diese Lücke zu schließen, stellen wir MSTS vor, eine Multimodale Sicherheits-Test-Suite für VSM. MSTS umfasst 400 Testanfragen in 40 fein abgestuften Gefahrenkategorien. Jede Testanfrage besteht aus einem Text und einem Bild, die nur in Kombination ihre volle unsichere Bedeutung offenbaren. Mit MSTS entdecken wir klare Sicherheitsprobleme in mehreren offenen VSM. Wir stellen auch fest, dass einige VSM aus Zufall sicher sind, was bedeutet, dass sie sicher sind, weil sie selbst einfache Testanfragen nicht verstehen. Wir übersetzen MSTS in zehn Sprachen, zeigen nicht-englische Anfragen, um die Rate unsicherer Modellantworten zu erhöhen. Wir zeigen auch, dass Modelle sicherer sind, wenn sie nur mit Text und nicht mit multimodalen Anfragen getestet werden. Schließlich untersuchen wir die Automatisierung von Sicherheitsbewertungen für VSM und stellen fest, dass selbst die besten Sicherheitsklassifizierer unzureichend sind.
English
Vision-language models (VLMs), which process image and text inputs, are increasingly integrated into chat assistants and other consumer AI applications. Without proper safeguards, however, VLMs may give harmful advice (e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs). Despite these clear hazards, little work so far has evaluated VLM safety and the novel risks created by multimodal inputs. To address this gap, we introduce MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts across 40 fine-grained hazard categories. Each test prompt consists of a text and an image that only in combination reveal their full unsafe meaning. With MSTS, we find clear safety issues in several open VLMs. We also find some VLMs to be safe by accident, meaning that they are safe because they fail to understand even simple test prompts. We translate MSTS into ten languages, showing non-English prompts to increase the rate of unsafe model responses. We also show models to be safer when tested with text only rather than multimodal prompts. Finally, we explore the automation of VLM safety assessments, finding even the best safety classifiers to be lacking.

Summary

AI-Generated Summary

PDF82January 22, 2025