Universal Multi-Prompts를 사용한 탈옥
Jailbreaking with Universal Multi-Prompts
February 3, 2025
저자: Yu-Ling Hsu, Hsuan Su, Shang-Tse Chen
cs.AI
초록
최근 몇 년간 대형 언어 모델(LLMs)은 급속한 발전을 보여, 다양한 응용 프로그램을 혁신적으로 변화시키고 편의성과 생산성을 크게 향상시켰습니다. 그러나 그들의 인상적인 능력과 함께 윤리적인 우려와 jailbreaking과 같은 새로운 유형의 공격이 등장했습니다. 대부분의 프롬프팅 기술은 개별 사례에 대한 적대적 입력을 최적화하는 데 초점을 맞추었으며, 이는 대규모 데이터셋을 처리할 때 더 높은 계산 비용을 초래합니다. 일반적인 설정에서 보다 일반적인 공격자를 훈련시킬 수 있는 방법에 대한 연구는 덜 이루어졌습니다. 본 논문에서는 universal multi-prompts를 사용하여 LLMs를 jailbreak하는 JUMP라는 프롬프트 기반 방법을 소개합니다. 또한 우리의 방법을 방어용으로 적응시켜 DUMP라고 명명합니다. 실험 결과는 우리의 universal multi-prompts 최적화 방법이 기존 기술을 능가한다는 것을 입증합니다.
English
Large language models (LLMs) have seen rapid development in recent years,
revolutionizing various applications and significantly enhancing convenience
and productivity. However, alongside their impressive capabilities, ethical
concerns and new types of attacks, such as jailbreaking, have emerged. While
most prompting techniques focus on optimizing adversarial inputs for individual
cases, resulting in higher computational costs when dealing with large
datasets. Less research has addressed the more general setting of training a
universal attacker that can transfer to unseen tasks. In this paper, we
introduce JUMP, a prompt-based method designed to jailbreak LLMs using
universal multi-prompts. We also adapt our approach for defense, which we term
DUMP. Experimental results demonstrate that our method for optimizing universal
multi-prompts outperforms existing techniques.Summary
AI-Generated Summary