ChatPaper.aiChatPaper

Proteggere i Modelli Visione-Linguaggio: Mitigare le Vulnerabilità al Rumore Gaussiano negli Attacchi Basati su Perturbazioni

Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

April 2, 2025
Autori: Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam
cs.AI

Abstract

I modelli visione-linguaggio (VLMs) estendono le capacità dei modelli linguistici su larga scala (LLMs) incorporando informazioni visive, ma rimangono vulnerabili agli attacchi di jailbreak, specialmente quando elaborano immagini rumorose o corrotte. Sebbene i VLMs esistenti adottino misure di sicurezza durante l'addestramento per mitigare tali attacchi, le vulnerabilità associate agli input visivi aumentati con rumore vengono trascurate. In questo lavoro, identifichiamo che la mancanza di un addestramento aumentato con rumore causa lacune di sicurezza critiche: molti VLMs sono suscettibili anche a perturbazioni semplici come il rumore gaussiano. Per affrontare questa sfida, proponiamo Robust-VLGuard, un dataset di sicurezza multimodale con coppie immagine-testo allineate/non allineate, combinato con un fine-tuning aumentato con rumore che riduce i tassi di successo degli attacchi preservando la funzionalità del VLM. Per attacchi di perturbazione visiva basati su ottimizzazione più robusti, proponiamo DiffPure-VLM, sfruttando modelli di diffusione per convertire le perturbazioni avversarie in rumore simile a quello gaussiano, che può essere difeso dai VLMs con un fine-tuning di sicurezza aumentato con rumore. I risultati sperimentali dimostrano che la proprietà di spostamento della distribuzione del modello di diffusione si allinea bene con i nostri VLMs fine-tuned, mitigando significativamente le perturbazioni avversarie a diverse intensità. Il dataset e il codice sono disponibili su https://github.com/JarvisUSTC/DiffPure-RobustVLM.
English
Vision-Language Models (VLMs) extend the capabilities of Large Language Models (LLMs) by incorporating visual information, yet they remain vulnerable to jailbreak attacks, especially when processing noisy or corrupted images. Although existing VLMs adopt security measures during training to mitigate such attacks, vulnerabilities associated with noise-augmented visual inputs are overlooked. In this work, we identify that missing noise-augmented training causes critical security gaps: many VLMs are susceptible to even simple perturbations such as Gaussian noise. To address this challenge, we propose Robust-VLGuard, a multimodal safety dataset with aligned / misaligned image-text pairs, combined with noise-augmented fine-tuning that reduces attack success rates while preserving functionality of VLM. For stronger optimization-based visual perturbation attacks, we propose DiffPure-VLM, leveraging diffusion models to convert adversarial perturbations into Gaussian-like noise, which can be defended by VLMs with noise-augmented safety fine-tuning. Experimental results demonstrate that the distribution-shifting property of diffusion model aligns well with our fine-tuned VLMs, significantly mitigating adversarial perturbations across varying intensities. The dataset and code are available at https://github.com/JarvisUSTC/DiffPure-RobustVLM.

Summary

AI-Generated Summary

PDF132April 3, 2025