VLSBench: Svelare la Fuga Visiva nella Sicurezza Multimodale
VLSBench: Unveiling Visual Leakage in Multimodal Safety
November 29, 2024
Autori: Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao
cs.AI
Abstract
Le preoccupazioni sulla sicurezza dei Modelli di linguaggio multimodali di grandi dimensioni (MLLM) sono gradualmente diventate un problema importante in varie applicazioni. Sorprendentemente, lavori precedenti indicano un fenomeno controintuitivo che utilizzando l'eliminazione testuale si ottengono prestazioni di sicurezza comparabili con MLLM addestrati con coppie immagine-testo. Per spiegare un tale fenomeno controintuitivo, scopriamo un problema di perdita di informazioni sulla sicurezza visiva (VSIL) nei benchmark di sicurezza multimodali esistenti, cioè il contenuto potenzialmente rischioso e sensibile nell'immagine è stato rivelato nella query testuale. In questo modo, i MLLM possono facilmente rifiutare queste query testo-immagine sensibili in base alle query testuali. Tuttavia, le coppie immagine-testo senza VSIL sono comuni in scenari del mondo reale e sono trascurate dai benchmark di sicurezza multimodali esistenti. A tal fine, costruiamo il benchmark di sicurezza visiva multimodale senza perdite di informazioni (VLSBench) che impedisce la perdita di informazioni sulla sicurezza visiva dall'immagine alla query testuale con 2,4k coppie immagine-testo. I risultati sperimentali indicano che VLSBench pone una sfida significativa sia per i MLLM open-source che close-source, inclusi LLaVA, Qwen2-VL, Llama3.2-Vision e GPT-4o. Questo studio dimostra che l'allineamento testuale è sufficiente per scenari di sicurezza multimodali con VSIL, mentre l'allineamento multimodale è una soluzione più promettente per scenari di sicurezza multimodali senza VSIL. Si prega di consultare il nostro codice e i dati su: http://hxhcreate.github.io/VLSBench
English
Safety concerns of Multimodal large language models (MLLMs) have gradually
become an important problem in various applications. Surprisingly, previous
works indicate a counter-intuitive phenomenon that using textual unlearning to
align MLLMs achieves comparable safety performances with MLLMs trained with
image-text pairs. To explain such a counter-intuitive phenomenon, we discover a
visual safety information leakage (VSIL) problem in existing multimodal safety
benchmarks, i.e., the potentially risky and sensitive content in the image has
been revealed in the textual query. In this way, MLLMs can easily refuse these
sensitive text-image queries according to textual queries. However, image-text
pairs without VSIL are common in real-world scenarios and are overlooked by
existing multimodal safety benchmarks. To this end, we construct multimodal
visual leakless safety benchmark (VLSBench) preventing visual safety leakage
from image to textual query with 2.4k image-text pairs. Experimental results
indicate that VLSBench poses a significant challenge to both open-source and
close-source MLLMs, including LLaVA, Qwen2-VL, Llama3.2-Vision, and GPT-4o.
This study demonstrates that textual alignment is enough for multimodal safety
scenarios with VSIL, while multimodal alignment is a more promising solution
for multimodal safety scenarios without VSIL. Please see our code and data at:
http://hxhcreate.github.io/VLSBenchSummary
AI-Generated Summary