MLLM-come-Giudice per la Sicurezza delle Immagini senza Etichettatura Umana

MLLM-as-a-Judge for Image Safety without Human Labeling

December 31, 2024
Autori: Zhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, Shiqing Ma, Dimitris N. Metaxas, Ankit Jain
cs.AI

Abstract

La sicurezza dei contenuti delle immagini è diventata una sfida significativa con la diffusione dei media visivi sulle piattaforme online. Nel frattempo, nell'era dei contenuti generati da intelligenza artificiale (CGIA), molti modelli di generazione di immagini sono in grado di produrre contenuti dannosi, come immagini contenenti materiale sessualmente esplicito o violento. Pertanto, diventa cruciale identificare tali immagini non sicure basandosi su regole di sicurezza stabilite. I Modelli Linguaggio Multimodali di Grandi Dimensioni (MLLM) preaddestrati offrono potenzialità in questo senso, date le loro forti capacità di riconoscimento di modelli. Gli approcci esistenti tipicamente adattano i MLLM con set di dati etichettati da esseri umani, il che però comporta una serie di svantaggi. In primo luogo, fare affidamento su annotatori umani per etichettare i dati seguendo linee guida intricate e dettagliate è sia costoso che intensivo dal punto di vista del lavoro. Inoltre, gli utenti dei sistemi di valutazione della sicurezza potrebbero dover aggiornare frequentemente le regole di sicurezza, rendendo più impegnativo il fine-tuning sull'annotazione basata sull'essere umano. Ciò solleva la questione di ricerca: Possiamo rilevare immagini non sicure interrogando i MLLM in un contesto zero-shot utilizzando una costituzione di sicurezza predefinita (un insieme di regole di sicurezza)? La nostra ricerca ha mostrato che interrogare semplicemente i MLLM preaddestrati non produce risultati soddisfacenti. Questa mancanza di efficacia deriva da fattori come la soggettività delle regole di sicurezza, la complessità delle costituzioni lunghe e i pregiudizi intrinseci nei modelli. Per affrontare queste sfide, proponiamo un metodo basato su MLLM che include l'oggettivazione delle regole di sicurezza, la valutazione della rilevanza tra regole e immagini, la formulazione di giudizi rapidi basati sulle probabilità di token prive di pregiudizi con catene di precondizioni logicamente complete ma semplificate per le regole di sicurezza e lo svolgimento di ragionamenti più approfonditi con processi di pensiero a cascata se necessario. I risultati sperimentali dimostrano che il nostro metodo è altamente efficace per compiti di valutazione della sicurezza delle immagini in modalità zero-shot.
English
Image content safety has become a significant challenge with the rise of visual media on online platforms. Meanwhile, in the age of AI-generated content (AIGC), many image generation models are capable of producing harmful content, such as images containing sexual or violent material. Thus, it becomes crucial to identify such unsafe images based on established safety rules. Pre-trained Multimodal Large Language Models (MLLMs) offer potential in this regard, given their strong pattern recognition abilities. Existing approaches typically fine-tune MLLMs with human-labeled datasets, which however brings a series of drawbacks. First, relying on human annotators to label data following intricate and detailed guidelines is both expensive and labor-intensive. Furthermore, users of safety judgment systems may need to frequently update safety rules, making fine-tuning on human-based annotation more challenging. This raises the research question: Can we detect unsafe images by querying MLLMs in a zero-shot setting using a predefined safety constitution (a set of safety rules)? Our research showed that simply querying pre-trained MLLMs does not yield satisfactory results. This lack of effectiveness stems from factors such as the subjectivity of safety rules, the complexity of lengthy constitutions, and the inherent biases in the models. To address these challenges, we propose a MLLM-based method includes objectifying safety rules, assessing the relevance between rules and images, making quick judgments based on debiased token probabilities with logically complete yet simplified precondition chains for safety rules, and conducting more in-depth reasoning with cascaded chain-of-thought processes if necessary. Experiment results demonstrate that our method is highly effective for zero-shot image safety judgment tasks.

Summary

AI-Generated Summary

PDF242January 3, 2025