Dovremmo davvero modificare i modelli linguistici? Sulla valutazione dei modelli linguistici modificati.
Should We Really Edit Language Models? On the Evaluation of Edited Language Models
October 24, 2024
Autori: Qi Li, Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Xinglin Pan, Xiaowen Chu
cs.AI
Abstract
La modifica dei modelli è diventata un'alternativa sempre più popolare per aggiornare efficientemente le conoscenze all'interno dei modelli linguistici. I metodi attuali si concentrano principalmente sulla affidabilità, generalizzazione e località, con molti metodi che eccellono in base a questi criteri. Alcuni lavori recenti rivelano le insidie di questi metodi di modifica, come la distorsione o i conflitti delle conoscenze. Tuttavia, le capacità generali dei modelli linguistici post-modifica rimangono inesplorate. In questo articolo, effettuiamo una valutazione completa su vari metodi di modifica e diversi modelli linguistici, e abbiamo i seguenti risultati. (1) I metodi di modifica esistenti portano inevitabilmente a un deterioramento delle prestazioni sui benchmark generali, indicando che i metodi di modifica attuali mantengono le capacità generali del modello solo entro alcune dozzine di modifiche. Quando il numero di modifiche è leggermente elevato, la struttura di conoscenza intrinseca del modello viene interrotta o addirittura danneggiata completamente. (2) I modelli sintonizzati con le istruzioni sono più robusti alla modifica, mostrando una minore diminuzione delle prestazioni sulla conoscenza generale dopo la modifica. (3) I modelli linguistici di grande scala sono più resistenti alla modifica rispetto ai modelli di piccole dimensioni. (4) La sicurezza del modello modificato è significativamente indebolita, anche per quei modelli allineati alla sicurezza. I nostri risultati indicano che i metodi di modifica attuali sono adatti solo per gli aggiornamenti di conoscenza su piccola scala all'interno dei modelli linguistici, il che motiva ulteriori ricerche su metodi di modifica più pratici e affidabili. I dettagli del codice e della riproducibilità possono essere trovati su https://github.com/lqinfdim/EditingEvaluation.
English
Model editing has become an increasingly popular alternative for efficiently
updating knowledge within language models. Current methods mainly focus on
reliability, generalization, and locality, with many methods excelling across
these criteria. Some recent works disclose the pitfalls of these editing
methods such as knowledge distortion or conflict. However, the general
abilities of post-edited language models remain unexplored. In this paper, we
perform a comprehensive evaluation on various editing methods and different
language models, and have following findings. (1) Existing editing methods lead
to inevitable performance deterioration on general benchmarks, indicating that
existing editing methods maintain the general abilities of the model within
only a few dozen edits. When the number of edits is slightly large, the
intrinsic knowledge structure of the model is disrupted or even completely
damaged. (2) Instruction-tuned models are more robust to editing, showing less
performance drop on general knowledge after editing. (3) Language model with
large scale is more resistant to editing compared to small model. (4) The
safety of the edited model, is significantly weakened, even for those
safety-aligned models. Our findings indicate that current editing methods are
only suitable for small-scale knowledge updates within language models, which
motivates further research on more practical and reliable editing methods. The
details of code and reproduction can be found in
https://github.com/lqinfdim/EditingEvaluation.Summary
AI-Generated Summary