LookAhead Tuning: Sicherere Sprachmodelle durch Teilantwort-Vorschauen
LookAhead Tuning: Safer Language Models via Partial Answer Previews
March 24, 2025
Autoren: Kangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen
cs.AI
Zusammenfassung
Feintuning ermöglicht es großen Sprachmodellen (LLMs), sich an spezifische Domänen anzupassen, untergräbt jedoch oft deren zuvor etablierte Sicherheitsausrichtung. Um die Verschlechterung der Modellsicherheit während des Feintunings zu mildern, führen wir LookAhead Tuning ein, das zwei einfache, ressourcenschonende und effektive datengetriebene Methoden umfasst, die Trainingsdaten durch das Vorschauen von partiellen Antwortpräfixen modifizieren. Beide Methoden zielen darauf ab, die inhärenten Sicherheitsmechanismen des Modells zu bewahren, indem sie Störungen der anfänglichen Tokenverteilungen minimieren. Umfassende Experimente zeigen, dass LookAhead Tuning die Modellsicherheit effektiv aufrechterhält, ohne die robuste Leistung bei nachgelagerten Aufgaben zu beeinträchtigen. Unsere Ergebnisse positionieren LookAhead Tuning als eine zuverlässige und effiziente Lösung für die sichere und effektive Anpassung von LLMs. Der Code ist unter https://github.com/zjunlp/LookAheadTuning verfügbar.
English
Fine-tuning enables large language models (LLMs) to adapt to specific
domains, but often undermines their previously established safety alignment. To
mitigate the degradation of model safety during fine-tuning, we introduce
LookAhead Tuning, which comprises two simple, low-resource, and effective
data-driven methods that modify training data by previewing partial answer
prefixes. Both methods aim to preserve the model's inherent safety mechanisms
by minimizing perturbations to initial token distributions. Comprehensive
experiments demonstrate that LookAhead Tuning effectively maintains model
safety without sacrificing robust performance on downstream tasks. Our findings
position LookAhead Tuning as a reliable and efficient solution for the safe and
effective adaptation of LLMs. Code is released at
https://github.com/zjunlp/LookAheadTuning.Summary
AI-Generated Summary