바이러스: 대형 언어 모델을 우회하는 유해한 파인튜닝 공격을 위한 가드레일 조절 우회
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation
January 29, 2025
저자: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
cs.AI
초록
최근 연구에 따르면 대형 언어 모델 (Large Language Models, LLMs)은 유해한 파인튜닝 공격에 취약함이 밝혀졌습니다. 모델은 몇 가지 유해한 샘플에 대해 파인튜닝한 후 안전 정렬 능력을 상실합니다. 위험 완화를 위해 경비막이 일반적으로 사용되어 유해한 샘플을 파인튜닝하기 전에 걸러냅니다. 본 논문에서는 새로운 레드팀 방법을 설계함으로써, 데이터 필터링에 대한 경비막만 의존하는 것이 신뢰할 수 없다는 것을 보여줍니다. 저희가 제안하는 공격 방법인 '바이러스'는 경비막 필터링을 우회하는데 성공하며, 약간의 수정으로 유해한 데이터를 우회합니다. 실험 결과는 바이러스에 의해 최적화된 유해한 데이터가 100% 누설 비율까지 경비막에 감지되지 않으며 동시에 우수한 공격 성능을 달성한다는 것을 보여줍니다. 마지막으로, 본 논문을 통해 전달하고자 하는 주요 메시지는 다음과 같습니다: 유해한 파인튜닝 공격에 대한 구명수로서 경비막 필터링을 고려하는 것은 무모하며, 사전 훈련된 LLMs의 내재적 안전 문제를 해결할 수 없다는 것입니다. 저희의 코드는 https://github.com/git-disl/Virus에서 확인할 수 있습니다.
English
Recent research shows that Large Language Models (LLMs) are vulnerable to
harmful fine-tuning attacks -- models lose their safety alignment ability after
fine-tuning on a few harmful samples. For risk mitigation, a guardrail is
typically used to filter out harmful samples before fine-tuning. By designing a
new red-teaming method, we in this paper show that purely relying on the
moderation guardrail for data filtration is not reliable. Our proposed attack
method, dubbed Virus, easily bypasses the guardrail moderation by slightly
modifying the harmful data. Experimental results show that the harmful data
optimized by Virus is not detectable by the guardrail with up to 100\% leakage
ratio, and can simultaneously achieve superior attack performance. Finally, the
key message we want to convey through this paper is that: it is
reckless to consider guardrail moderation as a clutch at straws towards harmful
fine-tuning attack, as it cannot solve the inherent safety issue of the
pre-trained LLMs. Our code is available at https://github.com/git-disl/VirusSummary
AI-Generated Summary