Proteggere i LLMs ottimizzati tramite la fusione dei modelli prima e dopo l'ottimizzazione.
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging
December 27, 2024
Autori: Hua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee
cs.AI
Abstract
Il raffinamento dei grandi modelli linguistici (LLM) per compiti successivi è un approccio ampiamente adottato, ma spesso porta a una degradazione della sicurezza nei LLM allineati alla sicurezza. Attualmente, molte soluzioni affrontano questo problema incorporando dati di sicurezza aggiuntivi, il che può essere impraticabile in molti casi. In questo articolo, affrontiamo la domanda: Come possiamo migliorare le prestazioni dei compiti successivi preservando la sicurezza nei LLM senza fare affidamento su dati di sicurezza aggiuntivi? Proponiamo un metodo semplice ed efficace che mantiene la sicurezza intrinseca dei LLM mentre potenzia le loro prestazioni nei compiti successivi: unendo i pesi dei modelli allineati alla sicurezza pre e post-rafinitura. I risultati sperimentali su vari compiti successivi, modelli e metodi di unione dimostrano che questo approccio mitiga efficacemente la degradazione della sicurezza migliorando le prestazioni dei compiti successivi, offrendo una soluzione pratica per adattare i LLM allineati alla sicurezza.
English
Fine-tuning large language models (LLMs) for downstream tasks is a widely
adopted approach, but it often leads to safety degradation in safety-aligned
LLMs. Currently, many solutions address this issue by incorporating additional
safety data, which can be impractical in many cases. In this paper, we address
the question: How can we improve downstream task performance while preserving
safety in LLMs without relying on additional safety data? We propose a simple
and effective method that maintains the inherent safety of LLMs while enhancing
their downstream task performance: merging the weights of pre- and
post-fine-tuned safety-aligned models. Experimental results across various
downstream tasks, models, and merging methods demonstrate that this approach
effectively mitigates safety degradation while improving downstream task
performance, offering a practical solution for adapting safety-aligned LLMs.Summary
AI-Generated Summary