ChatPaper.aiChatPaper

자동-RT: 대규모 언어 모델을 위한 레드팀을 위한 자동 탈옥 전략 탐색

Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

January 3, 2025
저자: Yanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun
cs.AI

초록

자동화된 레드팀은 대형 언어 모델(LLM)에서 취약점을 발견하는 데 중요한 방법으로 자리 잡았습니다. 그러나 대부분의 기존 방법은 고립된 안전 결함에 초점을 맞추어 동적 방어에 적응하고 복잡한 취약점을 효율적으로 발견하는 능력을 제한합니다. 이 문제에 대응하기 위해 우리는 자동으로 공격 전략을 탐색하고 최적화하여 악의적 쿼리를 통해 보안 취약점을 효과적으로 발견하는 Auto-RT라는 강화 학습 프레임워크를 제안합니다. 구체적으로, 우리는 탐사 복잡성을 줄이고 전략 최적화를 향상시키기 위해 두 가지 핵심 메커니즘을 소개합니다: 1) 조기 종료 탐사는 높은 잠재적인 공격 전략에 초점을 맞춤으로써 탐사를 가속화합니다. 2) 중간 다운그레이드 모델을 사용한 점진적 보상 추적 알고리즘은 성공적인 취약점 이용을 위해 검색 궤적을 동적으로 정제합니다. 다양한 LLM을 대상으로 한 광범위한 실험 결과, Auto-RT는 탐사 효율성을 크게 향상시키고 공격 전략을 자동으로 최적화함으로써 기존 방법에 비해 더 넓은 범위의 취약점을 감지하며 빠른 감지 속도와 16.63% 더 높은 성공률을 달성합니다.
English
Automated red-teaming has become a crucial approach for uncovering vulnerabilities in large language models (LLMs). However, most existing methods focus on isolated safety flaws, limiting their ability to adapt to dynamic defenses and uncover complex vulnerabilities efficiently. To address this challenge, we propose Auto-RT, a reinforcement learning framework that automatically explores and optimizes complex attack strategies to effectively uncover security vulnerabilities through malicious queries. Specifically, we introduce two key mechanisms to reduce exploration complexity and improve strategy optimization: 1) Early-terminated Exploration, which accelerate exploration by focusing on high-potential attack strategies; and 2) Progressive Reward Tracking algorithm with intermediate downgrade models, which dynamically refine the search trajectory toward successful vulnerability exploitation. Extensive experiments across diverse LLMs demonstrate that, by significantly improving exploration efficiency and automatically optimizing attack strategies, Auto-RT detects a boarder range of vulnerabilities, achieving a faster detection speed and 16.63\% higher success rates compared to existing methods.

Summary

AI-Generated Summary

PDF182January 7, 2025