MLLM como Juiz para Segurança de Imagens sem Rotulagem Humana
MLLM-as-a-Judge for Image Safety without Human Labeling
December 31, 2024
Autores: Zhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, Shiqing Ma, Dimitris N. Metaxas, Ankit Jain
cs.AI
Resumo
A segurança de conteúdo de imagens tornou-se um desafio significativo com o aumento de mídias visuais em plataformas online. Enquanto isso, na era do conteúdo gerado por IA (CGIA), muitos modelos de geração de imagens são capazes de produzir conteúdo prejudicial, como imagens contendo material sexual ou violento. Portanto, torna-se crucial identificar tais imagens inseguras com base em regras de segurança estabelecidas. Modelos de Linguagem Multimodais de Grande Porte (MLLMs) pré-treinados oferecem potencial nesse sentido, dadas suas fortes habilidades de reconhecimento de padrões. As abordagens existentes geralmente ajustam finamente os MLLMs com conjuntos de dados rotulados por humanos, o que, no entanto, traz uma série de desvantagens. Em primeiro lugar, depender de anotadores humanos para rotular dados seguindo diretrizes intricadas e detalhadas é tanto caro quanto intensivo em mão de obra. Além disso, os usuários de sistemas de julgamento de segurança podem precisar atualizar frequentemente as regras de segurança, tornando o ajuste fino com base em anotação humana mais desafiador. Isso levanta a questão de pesquisa: Podemos detectar imagens inseguras consultando MLLMs em um cenário de zero-shot usando uma constituição de segurança predefinida (um conjunto de regras de segurança)? Nossa pesquisa mostrou que simplesmente consultar MLLMs pré-treinados não produz resultados satisfatórios. Essa falta de eficácia decorre de fatores como a subjetividade das regras de segurança, a complexidade de constituições extensas e os vieses inerentes nos modelos. Para enfrentar esses desafios, propomos um método baseado em MLLM que inclui a objetificação de regras de segurança, avaliação da relevância entre regras e imagens, realização de julgamentos rápidos com base em probabilidades de tokens desviados com cadeias de pré-condições logicamente completas, porém simplificadas, para regras de segurança, e condução de raciocínio mais aprofundado com processos encadeados de pensamento, se necessário. Os resultados experimentais demonstram que nosso método é altamente eficaz para tarefas de julgamento de segurança de imagens em cenários de zero-shot.
English
Image content safety has become a significant challenge with the rise of
visual media on online platforms. Meanwhile, in the age of AI-generated content
(AIGC), many image generation models are capable of producing harmful content,
such as images containing sexual or violent material. Thus, it becomes crucial
to identify such unsafe images based on established safety rules. Pre-trained
Multimodal Large Language Models (MLLMs) offer potential in this regard, given
their strong pattern recognition abilities. Existing approaches typically
fine-tune MLLMs with human-labeled datasets, which however brings a series of
drawbacks. First, relying on human annotators to label data following intricate
and detailed guidelines is both expensive and labor-intensive. Furthermore,
users of safety judgment systems may need to frequently update safety rules,
making fine-tuning on human-based annotation more challenging. This raises the
research question: Can we detect unsafe images by querying MLLMs in a zero-shot
setting using a predefined safety constitution (a set of safety rules)? Our
research showed that simply querying pre-trained MLLMs does not yield
satisfactory results. This lack of effectiveness stems from factors such as the
subjectivity of safety rules, the complexity of lengthy constitutions, and the
inherent biases in the models. To address these challenges, we propose a
MLLM-based method includes objectifying safety rules, assessing the relevance
between rules and images, making quick judgments based on debiased token
probabilities with logically complete yet simplified precondition chains for
safety rules, and conducting more in-depth reasoning with cascaded
chain-of-thought processes if necessary. Experiment results demonstrate that
our method is highly effective for zero-shot image safety judgment tasks.Summary
AI-Generated Summary