LLM은 정치적으로 올바른가? AI 시스템에서의 윤리적 편향과 탈옥 취약점 분석
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems
October 17, 2024
저자: Isack Lee, Haebin Seong
cs.AI
초록
대형 언어 모델(Large Language Models, LLMs)은 다양한 작업에서 높은 능력을 보여주지만, '탈옥(jailbreaks)'과 같은 잠재적인 안전 위험을 제시하며, 악의적인 입력이 LLMs를 유도하여 해로운 콘텐츠를 생성하게 할 수 있습니다. 이러한 문제를 해결하기 위해 많은 LLM 개발자들이 이러한 모델을 조정하기 위한 다양한 안전 조치를 시행해왔습니다. 이러한 조정은 사전 훈련 중 데이터 필터링, 감독된 미세 조정, 인간 피드백으로부터의 강화 학습, 그리고 레드팀 연습을 포함하는 여러 기술을 포함합니다. 이러한 방법들은 종종 윤리적인 행동을 보장하기 위해 정치적 정확성(PC)과 유사한 의도적이고 의도된 편향을 도입합니다. 본 논문에서는 안전을 위해 LLMs에 주입된 의도적 편향을 탐구하고, 이러한 안전 조정 기술을 우회하는 방법을 조사합니다. 특히, 이러한 의도적 편향은 GPT-4o 모델에서 탈옥 성공률을 비이진 및 시스젠더 키워드 간에 20% 차이, 백인 및 흑인 키워드 간에 16% 차이를 보이며, 다른 부분이 동일한 경우에도 나타납니다. 우리는 PCJailbreak 개념을 소개하며, 이러한 안전 유발 편향이 초래하는 내재적 위험을 강조합니다. 게다가, 우리는 생성 전 방어 프롬프트를 주입하여 탈옥 시도를 방지하는 효율적인 방어 방법인 PCDefense를 제안합니다. PCDefense는 텍스트 생성 후 추가 추론 비용이 필요한 Llama-Guard와 같은 가드 모델에 대한 매력적인 대안으로 나타납니다. 우리의 연구 결과는 LLM 개발자들이 안전 조치를 설계하고 시행할 때 더 책임있는 접근 방식을 채택해야 함을 강조합니다.
English
Although large language models (LLMs) demonstrate impressive proficiency in
various tasks, they present potential safety risks, such as `jailbreaks', where
malicious inputs can coerce LLMs into generating harmful content. To address
these issues, many LLM developers have implemented various safety measures to
align these models. This alignment involves several techniques, including data
filtering during pre-training, supervised fine-tuning, reinforcement learning
from human feedback, and red-teaming exercises. These methods often introduce
deliberate and intentional biases similar to Political Correctness (PC) to
ensure the ethical behavior of LLMs. In this paper, we delve into the
intentional biases injected into LLMs for safety purposes and examine methods
to circumvent these safety alignment techniques. Notably, these intentional
biases result in a jailbreaking success rate in GPT-4o models that differs by
20% between non-binary and cisgender keywords and by 16% between white and
black keywords, even when the other parts of the prompts are identical. We
introduce the concept of PCJailbreak, highlighting the inherent risks posed by
these safety-induced biases. Additionally, we propose an efficient defense
method PCDefense, which prevents jailbreak attempts by injecting defense
prompts prior to generation. PCDefense stands as an appealing alternative to
Guard Models, such as Llama-Guard, that require additional inference cost after
text generation. Our findings emphasize the urgent need for LLM developers to
adopt a more responsible approach when designing and implementing safety
measures.Summary
AI-Generated Summary