ChatPaper.aiChatPaper

쉽게 말해: 간단한 상호 작용을 통해 LLM에서 유해한 탈옥을 유도하기

Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions

February 6, 2025
저자: Yik Siu Chan, Narutatsu Ri, Yuxin Xiao, Marzyeh Ghassemi
cs.AI

초록

다양한 안전 조정 노력에도 불구하고 대형 언어 모델(LLMs)은 유해한 행동을 유도하는 탈옥 공격에 취약한 상태로 남아 있다. 기존 연구들은 주로 기술 전문 지식이 필요한 공격 방법에 초점을 맞추었지만, 두 가지 중요한 질문이 미개척된 채 남아 있다: (1) 탈옥 응답이 실제로 일반 사용자가 유해한 행동을 수행하는 데 유용한가? (2) 보다 일반적이고 간단한 인간-LLM 상호 작용에서 안전 취약점이 존재하는가? 본 논문에서는 LLM 응답이 유해한 행동을 가장 효과적으로 용이하게 하는 방법을 증명하며, 이는 다중 단계, 다국어 상호 작용에서 쉽게 유발되는 두 가지 속성인 실행 가능성과 정보성이다. 이 통찰력을 활용하여 우리는 유해한 행동을 가능하게 하는 LLM 응답의 효과를 측정하는 탈옥 지표인 HarmScore와 간단한 다중 단계, 다국어 공격 프레임워크인 Speak Easy를 제안한다. 특히, Speak Easy를 직접 요청 및 탈옥 기준에 통합함으로써, 네 가지 안전 벤치마크에서 오픈 소스 및 소유 LLM에서 공통적으로 Attack Success Rate에서 평균 절대 증가율 0.319 및 HarmScore에서 0.426의 증가를 확인하였다. 우리의 연구는 중요하지만 종종 간과되는 취약점을 밝혀냄으로써, 악의적 사용자가 유해한 의도로 일반적인 상호 작용 패턴을 쉽게 악용할 수 있다는 것을 보여준다.
English
Despite extensive safety alignment efforts, large language models (LLMs) remain vulnerable to jailbreak attacks that elicit harmful behavior. While existing studies predominantly focus on attack methods that require technical expertise, two critical questions remain underexplored: (1) Are jailbroken responses truly useful in enabling average users to carry out harmful actions? (2) Do safety vulnerabilities exist in more common, simple human-LLM interactions? In this paper, we demonstrate that LLM responses most effectively facilitate harmful actions when they are both actionable and informative--two attributes easily elicited in multi-step, multilingual interactions. Using this insight, we propose HarmScore, a jailbreak metric that measures how effectively an LLM response enables harmful actions, and Speak Easy, a simple multi-step, multilingual attack framework. Notably, by incorporating Speak Easy into direct request and jailbreak baselines, we see an average absolute increase of 0.319 in Attack Success Rate and 0.426 in HarmScore in both open-source and proprietary LLMs across four safety benchmarks. Our work reveals a critical yet often overlooked vulnerability: Malicious users can easily exploit common interaction patterns for harmful intentions.

Summary

AI-Generated Summary

PDF32February 7, 2025