ChatPaper.aiChatPaper

Jailbreaking을 통한 Jailbreak

Jailbreaking to Jailbreak

February 9, 2025
저자: Jeremy Kritz, Vaughn Robinson, Robert Vacareanu, Bijan Varjavand, Michael Choi, Bobby Gogov, Scale Red Team, Summer Yue, Willow E. Primack, Zifan Wang
cs.AI

초록

대형 언어 모델(LLM)에 대한 거부 훈련은 유해한 출력을 방지하지만, 이러한 방어는 자동화된 공격과 인간이 고안한 탈옥(jailbreak) 공격 모두에 취약합니다. 우리는 인간이 거부 훈련된 LLM을 탈옥시켜 스스로 또는 다른 LLM을 탈옥시키도록 만드는 새로운 LLM-as-red-teamer 접근 방식을 제시합니다. 우리는 탈옥된 LLM을 J_2 공격자라고 부르며, 이들은 다양한 레드 팀 전략을 사용해 대상 모델을 체계적으로 평가하고 이전 실패로부터의 인컨텍스트 학습(in-context learning)을 통해 성능을 개선할 수 있습니다. 우리의 실험 결과, Sonnet 3.5와 Gemini 1.5 pro가 다른 LLM보다 우수한 J_2로 작동하여 GPT-4o에 대해 각각 93.0%와 91.0%의 공격 성공률(ASR)을 달성했으며(Harmbench에서 다른 유능한 LLM에서도 유사한 결과를 보임), 이는 인간 레드 팀에서 영감을 받은 전략적 레드 팀의 확장 가능한 접근 방식을 소개할 뿐만 아니라, 보호 장치의 간과된 실패 모드로서의 "탈옥을 통한 탈옥(jailbreaking-to-jailbreak)"을 강조합니다. 구체적으로, LLM은 스스로의 보호 장치를 우회하기 위해 탈옥된 버전의 자신을 활용하여 추가적인 탈옥을 지원할 수 있습니다. J_2의 직접적인 오용을 방지하면서 AI 안전 연구를 발전시키기 위해, 우리는 구체적인 프롬프트 세부 사항은 비공개로 유지한 채 방법론을 공개합니다.
English
Refusal training on Large Language Models (LLMs) prevents harmful outputs, yet this defense remains vulnerable to both automated and human-crafted jailbreaks. We present a novel LLM-as-red-teamer approach in which a human jailbreaks a refusal-trained LLM to make it willing to jailbreak itself or other LLMs. We refer to the jailbroken LLMs as J_2 attackers, which can systematically evaluate target models using various red teaming strategies and improve its performance via in-context learning from the previous failures. Our experiments demonstrate that Sonnet 3.5 and Gemini 1.5 pro outperform other LLMs as J_2, achieving 93.0% and 91.0% attack success rates (ASRs) respectively against GPT-4o (and similar results across other capable LLMs) on Harmbench. Our work not only introduces a scalable approach to strategic red teaming, drawing inspiration from human red teamers, but also highlights jailbreaking-to-jailbreak as an overlooked failure mode of the safeguard. Specifically, an LLM can bypass its own safeguards by employing a jailbroken version of itself that is willing to assist in further jailbreaking. To prevent any direct misuse with J_2, while advancing research in AI safety, we publicly share our methodology while keeping specific prompting details private.

Summary

AI-Generated Summary

PDF32February 17, 2025