MSTS: 시각-언어 모델을 위한 다중 모달 안전 테스트 스위트
MSTS: A Multimodal Safety Test Suite for Vision-Language Models
January 17, 2025
저자: Paul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen
cs.AI
초록
시각-언어 모델(Vision-language models, VLMs)은 이미지와 텍스트 입력을 처리하는데, 최근에는 채팅 어시스턴트 및 다른 소비자 AI 응용 프로그램에 점점 더 통합되고 있습니다. 그러나 적절한 안전장치 없이 VLMs는 해로운 조언(예: 자해 방법)을 제공하거나 안전하지 않은 행동(예: 약물 복용 권유)을 장려할 수 있습니다. 이러한 명백한 위험에도 불구하고, 지금까지 VLM 안전성을 평가하고 다중 모달 입력에 의해 생성된 새로운 위험을 조사한 연구는 거의 없습니다. 이러한 공백을 해결하기 위해 우리는 VLMs를 위한 다중 모달 안전성 테스트 스위트인 MSTS를 소개합니다. MSTS는 40가지의 세부 위험 범주를 포함한 400개의 테스트 프롬프트로 구성되어 있습니다. 각 테스트 프롬프트는 텍스트와 이미지로 구성되어 있으며, 이 둘이 결합될 때에만 그들의 전체적인 위험한 의미를 드러냅니다. MSTS를 사용하여, 우리는 몇몇 공개 VLMs에서 명확한 안전 문제를 발견했습니다. 또한 어떤 VLMs는 우연히 안전하다는 것을 발견했는데, 이는 심지어 간단한 테스트 프롬프트를 이해하지 못하여 안전하다는 것을 의미합니다. 우리는 MSTS를 열 가지 언어로 번역하여, 영어 이외의 프롬프트를 보여주어 안전하지 않은 모델 응답률을 높이고 있습니다. 또한 다중 모달 프롬프트보다는 텍스트만 사용하여 모델을 테스트할 때 더 안전하다는 것을 보여줍니다. 마지막으로, VLM 안전성 평가의 자동화를 탐구하며, 최고의 안전 분류기조차 부족함을 발견하고 있습니다.
English
Vision-language models (VLMs), which process image and text inputs, are
increasingly integrated into chat assistants and other consumer AI
applications. Without proper safeguards, however, VLMs may give harmful advice
(e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs).
Despite these clear hazards, little work so far has evaluated VLM safety and
the novel risks created by multimodal inputs. To address this gap, we introduce
MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts
across 40 fine-grained hazard categories. Each test prompt consists of a text
and an image that only in combination reveal their full unsafe meaning. With
MSTS, we find clear safety issues in several open VLMs. We also find some VLMs
to be safe by accident, meaning that they are safe because they fail to
understand even simple test prompts. We translate MSTS into ten languages,
showing non-English prompts to increase the rate of unsafe model responses. We
also show models to be safer when tested with text only rather than multimodal
prompts. Finally, we explore the automation of VLM safety assessments, finding
even the best safety classifiers to be lacking.Summary
AI-Generated Summary