ChatPaper.aiChatPaper

VLMGuard: 레이블이 지정되지 않은 데이터를 통해 악의적 프롬프트에 대항하는 VLMs의 방어

VLMGuard: Defending VLMs against Malicious Prompts via Unlabeled Data

October 1, 2024
저자: Xuefeng Du, Reshmi Ghosh, Robert Sim, Ahmed Salem, Vitor Carvalho, Emily Lawton, Yixuan Li, Jack W. Stokes
cs.AI

초록

시각-언어 모델(VLMs)은 시각적 및 텍스트 정보의 맥락적 이해를 위해 중요합니다. 그러나 악의적으로 조작된 입력에 대한 취약성은 심각한 위험을 야기하여 결과물이 손상되고 VLM 통합 애플리케이션의 신뢰성에 대한 우려가 증가시킵니다. 이러한 악의적 프롬프트를 감지하는 것은 VLM 생성물에 대한 신뢰를 유지하는 데 중요합니다. 안전한 프롬프트 분류기를 개발하는 주요 과제 중 하나는 대량의 레이블이 지정된 양성 및 악성 데이터의 부족입니다. 이 문제를 해결하기 위해 우리는 VLMGuard를 소개합니다. 이는 악의적 프롬프트 감지를 위해 야생에서 발생하는 레이블이 지정되지 않은 사용자 프롬프트를 활용하는 새로운 학습 프레임워크입니다. VLM이 오픈 월드에 배포될 때 자연스럽게 발생하는 이러한 레이블이 지정되지 않은 프롬프트는 양성 및 악성 정보로 구성됩니다. 레이블이 지정되지 않은 데이터를 활용하기 위해 우리는 이 레이블이 지정되지 않은 혼합물 내에서 양성과 악성 샘플을 구별하기 위한 자동 악의성 추정 점수를 제시하여 이진 프롬프트 분류기를 훈련할 수 있도록 합니다. 특히, 우리의 프레임워크는 추가 인간 주석이 필요하지 않으며 강력한 유연성과 현실적인 적용 가능성을 제공합니다. 광범위한 실험 결과 VLMGuard가 우수한 감지 결과를 달성하며 최첨단 방법을 크게 능가함을 보여줍니다. 고지: 본 논문에는 노출되기 곤란한 예시가 포함될 수 있습니다. 독자의 신중이 필요합니다.
English
Vision-language models (VLMs) are essential for contextual understanding of both visual and textual information. However, their vulnerability to adversarially manipulated inputs presents significant risks, leading to compromised outputs and raising concerns about the reliability in VLM-integrated applications. Detecting these malicious prompts is thus crucial for maintaining trust in VLM generations. A major challenge in developing a safeguarding prompt classifier is the lack of a large amount of labeled benign and malicious data. To address the issue, we introduce VLMGuard, a novel learning framework that leverages the unlabeled user prompts in the wild for malicious prompt detection. These unlabeled prompts, which naturally arise when VLMs are deployed in the open world, consist of both benign and malicious information. To harness the unlabeled data, we present an automated maliciousness estimation score for distinguishing between benign and malicious samples within this unlabeled mixture, thereby enabling the training of a binary prompt classifier on top. Notably, our framework does not require extra human annotations, offering strong flexibility and practicality for real-world applications. Extensive experiment shows VLMGuard achieves superior detection results, significantly outperforming state-of-the-art methods. Disclaimer: This paper may contain offensive examples; reader discretion is advised.

Summary

AI-Generated Summary

PDF52November 16, 2024