ChatPaper.aiChatPaper

헌법 분류기: 수천 시간에 걸친 레드팀 작업에서의 범용 탈옥에 대한 방어

Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

January 31, 2025
저자: Mrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez
cs.AI

초록

대형 언어 모델 (LLMs)은 보안을 우회하고 사용자가 대규모로 불법 물질을 생산하는 등 많은 모델 상호작용이 필요한 유해한 프로세스를 수행할 수 있도록 하는 보안 장치를 체계적으로 우회하는 전체 탈옥 프롬프트 전략에 취약합니다. 이러한 공격에 대응하기 위해 우리는 헌법 분류기를 소개합니다: 합법적 및 제한적 콘텐츠를 지정하는 자연어 규칙 (즉, 헌법)을 사용하여 LLMs에 프롬프트하여 생성된 합성 데이터로 훈련된 보안 장치입니다. 3,000시간 이상의 레드팀 테스팅에서, 어떤 레드팀원도 초기 분류기로 보호된 LLM에서 대부분의 대상 쿼리에 대해 무방비 모델과 유사한 수준의 세부 정보를 추출할 수 있는 전체 탈옥을 찾지 못했습니다. 자동 평가에서, 향상된 분류기는 보유된 도메인 특정 탈옥에 대해 견고한 방어 능력을 보여주었습니다. 이러한 분류기는 배포 가능성을 유지하며, 생산 트래픽 거부율이 절대적으로 0.38% 증가하고 추론 오버헤드가 23.7% 증가합니다. 우리의 연구는 실용적인 배포 가능성을 유지하면서 전체 탈옥에 대응하는 것이 해결 가능함을 보여줍니다.
English
Large language models (LLMs) are vulnerable to universal jailbreaks-prompting strategies that systematically bypass model safeguards and enable users to carry out harmful processes that require many model interactions, like manufacturing illegal substances at scale. To defend against these attacks, we introduce Constitutional Classifiers: safeguards trained on synthetic data, generated by prompting LLMs with natural language rules (i.e., a constitution) specifying permitted and restricted content. In over 3,000 estimated hours of red teaming, no red teamer found a universal jailbreak that could extract information from an early classifier-guarded LLM at a similar level of detail to an unguarded model across most target queries. On automated evaluations, enhanced classifiers demonstrated robust defense against held-out domain-specific jailbreaks. These classifiers also maintain deployment viability, with an absolute 0.38% increase in production-traffic refusals and a 23.7% inference overhead. Our work demonstrates that defending against universal jailbreaks while maintaining practical deployment viability is tractable.

Summary

AI-Generated Summary

PDF95February 3, 2025