Dovremmo davvero modificare i modelli linguistici? Sulla valutazione dei modelli linguistici modificati.

Abstract

La modifica dei modelli è diventata un'alternativa sempre più popolare per aggiornare efficientemente le conoscenze all'interno dei modelli linguistici. I metodi attuali si concentrano principalmente sulla affidabilità, generalizzazione e località, con molti metodi che eccellono in base a questi criteri. Alcuni lavori recenti rivelano le insidie di questi metodi di modifica, come la distorsione o i conflitti delle conoscenze. Tuttavia, le capacità generali dei modelli linguistici post-modifica rimangono inesplorate. In questo articolo, effettuiamo una valutazione completa su vari metodi di modifica e diversi modelli linguistici, e abbiamo i seguenti risultati. (1) I metodi di modifica esistenti portano inevitabilmente a un deterioramento delle prestazioni sui benchmark generali, indicando che i metodi di modifica attuali mantengono le capacità generali del modello solo entro alcune dozzine di modifiche. Quando il numero di modifiche è leggermente elevato, la struttura di conoscenza intrinseca del modello viene interrotta o addirittura danneggiata completamente. (2) I modelli sintonizzati con le istruzioni sono più robusti alla modifica, mostrando una minore diminuzione delle prestazioni sulla conoscenza generale dopo la modifica. (3) I modelli linguistici di grande scala sono più resistenti alla modifica rispetto ai modelli di piccole dimensioni. (4) La sicurezza del modello modificato è significativamente indebolita, anche per quei modelli allineati alla sicurezza. I nostri risultati indicano che i metodi di modifica attuali sono adatti solo per gli aggiornamenti di conoscenza su piccola scala all'interno dei modelli linguistici, il che motiva ulteriori ricerche su metodi di modifica più pratici e affidabili. I dettagli del codice e della riproducibilità possono essere trovati su https://github.com/lqinfdim/EditingEvaluation.

English

Model editing has become an increasingly popular alternative for efficiently updating knowledge within language models. Current methods mainly focus on reliability, generalization, and locality, with many methods excelling across these criteria. Some recent works disclose the pitfalls of these editing methods such as knowledge distortion or conflict. However, the general abilities of post-edited language models remain unexplored. In this paper, we perform a comprehensive evaluation on various editing methods and different language models, and have following findings. (1) Existing editing methods lead to inevitable performance deterioration on general benchmarks, indicating that existing editing methods maintain the general abilities of the model within only a few dozen edits. When the number of edits is slightly large, the intrinsic knowledge structure of the model is disrupted or even completely damaged. (2) Instruction-tuned models are more robust to editing, showing less performance drop on general knowledge after editing. (3) Language model with large scale is more resistant to editing compared to small model. (4) The safety of the edited model, is significantly weakened, even for those safety-aligned models. Our findings indicate that current editing methods are only suitable for small-scale knowledge updates within language models, which motivates further research on more practical and reliable editing methods. The details of code and reproduction can be found in https://github.com/lqinfdim/EditingEvaluation.

Dovremmo davvero modificare i modelli linguistici? Sulla valutazione dei modelli linguistici modificati.

Should We Really Edit Language Models? On the Evaluation of Edited Language Models

Abstract

Summary

Support