MLLM-come-Giudice per la Sicurezza delle Immagini senza Etichettatura Umana
MLLM-as-a-Judge for Image Safety without Human Labeling
December 31, 2024
Autori: Zhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, Shiqing Ma, Dimitris N. Metaxas, Ankit Jain
cs.AI
Abstract
La sicurezza dei contenuti delle immagini è diventata una sfida significativa con la diffusione dei media visivi sulle piattaforme online. Nel frattempo, nell'era dei contenuti generati da intelligenza artificiale (CGIA), molti modelli di generazione di immagini sono in grado di produrre contenuti dannosi, come immagini contenenti materiale sessualmente esplicito o violento. Pertanto, diventa cruciale identificare tali immagini non sicure basandosi su regole di sicurezza stabilite. I Modelli Linguaggio Multimodali di Grandi Dimensioni (MLLM) preaddestrati offrono potenzialità in questo senso, date le loro forti capacità di riconoscimento di modelli. Gli approcci esistenti tipicamente adattano i MLLM con set di dati etichettati da esseri umani, il che però comporta una serie di svantaggi. In primo luogo, fare affidamento su annotatori umani per etichettare i dati seguendo linee guida intricate e dettagliate è sia costoso che intensivo dal punto di vista del lavoro. Inoltre, gli utenti dei sistemi di valutazione della sicurezza potrebbero dover aggiornare frequentemente le regole di sicurezza, rendendo più impegnativo il fine-tuning sull'annotazione basata sull'essere umano. Ciò solleva la questione di ricerca: Possiamo rilevare immagini non sicure interrogando i MLLM in un contesto zero-shot utilizzando una costituzione di sicurezza predefinita (un insieme di regole di sicurezza)? La nostra ricerca ha mostrato che interrogare semplicemente i MLLM preaddestrati non produce risultati soddisfacenti. Questa mancanza di efficacia deriva da fattori come la soggettività delle regole di sicurezza, la complessità delle costituzioni lunghe e i pregiudizi intrinseci nei modelli. Per affrontare queste sfide, proponiamo un metodo basato su MLLM che include l'oggettivazione delle regole di sicurezza, la valutazione della rilevanza tra regole e immagini, la formulazione di giudizi rapidi basati sulle probabilità di token prive di pregiudizi con catene di precondizioni logicamente complete ma semplificate per le regole di sicurezza e lo svolgimento di ragionamenti più approfonditi con processi di pensiero a cascata se necessario. I risultati sperimentali dimostrano che il nostro metodo è altamente efficace per compiti di valutazione della sicurezza delle immagini in modalità zero-shot.
English
Image content safety has become a significant challenge with the rise of
visual media on online platforms. Meanwhile, in the age of AI-generated content
(AIGC), many image generation models are capable of producing harmful content,
such as images containing sexual or violent material. Thus, it becomes crucial
to identify such unsafe images based on established safety rules. Pre-trained
Multimodal Large Language Models (MLLMs) offer potential in this regard, given
their strong pattern recognition abilities. Existing approaches typically
fine-tune MLLMs with human-labeled datasets, which however brings a series of
drawbacks. First, relying on human annotators to label data following intricate
and detailed guidelines is both expensive and labor-intensive. Furthermore,
users of safety judgment systems may need to frequently update safety rules,
making fine-tuning on human-based annotation more challenging. This raises the
research question: Can we detect unsafe images by querying MLLMs in a zero-shot
setting using a predefined safety constitution (a set of safety rules)? Our
research showed that simply querying pre-trained MLLMs does not yield
satisfactory results. This lack of effectiveness stems from factors such as the
subjectivity of safety rules, the complexity of lengthy constitutions, and the
inherent biases in the models. To address these challenges, we propose a
MLLM-based method includes objectifying safety rules, assessing the relevance
between rules and images, making quick judgments based on debiased token
probabilities with logically complete yet simplified precondition chains for
safety rules, and conducting more in-depth reasoning with cascaded
chain-of-thought processes if necessary. Experiment results demonstrate that
our method is highly effective for zero-shot image safety judgment tasks.Summary
AI-Generated Summary