Virus: Schadelijke Fine-tuning Aanval voor Grote Taalmodellen om Beveiligingsmaatregelen te Omzeilen
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation
January 29, 2025
Auteurs: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
cs.AI
Samenvatting
Recent onderzoek toont aan dat Grote Taalmodellen (LLMs) kwetsbaar zijn voor schadelijke fine-tuning aanvallen - modellen verliezen hun veiligheidsuitlijningsvermogen na fine-tuning op een paar schadelijke voorbeelden. Voor risicovermindering wordt doorgaans een vangrail gebruikt om schadelijke voorbeelden uit te filteren vóór de fine-tuning. Door het ontwerpen van een nieuwe red-teaming methode laten we in dit artikel zien dat het puur vertrouwen op de matiging van de vangrail voor gegevensfiltratie niet betrouwbaar is. Onze voorgestelde aanvalsmethode, genaamd Virus, omzeilt gemakkelijk de vangrailmatiging door de schadelijke gegevens lichtjes aan te passen. Experimentele resultaten tonen aan dat de schadelijke gegevens geoptimaliseerd door Virus niet detecteerbaar zijn door de vangrail met een lekkageratio tot 100%, en tegelijkertijd superieure aanvalprestaties kunnen behalen. Tenslotte is de belangrijkste boodschap die we via dit artikel willen overbrengen: het is roekeloos om de vangrailmatiging te beschouwen als een laatste strohalm tegen schadelijke fine-tuning aanvallen, aangezien het de inherente veiligheidskwestie van de vooraf getrainde LLMs niet kan oplossen. Onze code is beschikbaar op https://github.com/git-disl/Virus
English
Recent research shows that Large Language Models (LLMs) are vulnerable to
harmful fine-tuning attacks -- models lose their safety alignment ability after
fine-tuning on a few harmful samples. For risk mitigation, a guardrail is
typically used to filter out harmful samples before fine-tuning. By designing a
new red-teaming method, we in this paper show that purely relying on the
moderation guardrail for data filtration is not reliable. Our proposed attack
method, dubbed Virus, easily bypasses the guardrail moderation by slightly
modifying the harmful data. Experimental results show that the harmful data
optimized by Virus is not detectable by the guardrail with up to 100\% leakage
ratio, and can simultaneously achieve superior attack performance. Finally, the
key message we want to convey through this paper is that: it is
reckless to consider guardrail moderation as a clutch at straws towards harmful
fine-tuning attack, as it cannot solve the inherent safety issue of the
pre-trained LLMs. Our code is available at https://github.com/git-disl/VirusSummary
AI-Generated Summary