Moeten We Echt Taalmodellen Bewerken? Over de Evaluatie van Bewerkte Taalmodellen
Should We Really Edit Language Models? On the Evaluation of Edited Language Models
October 24, 2024
Auteurs: Qi Li, Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Xinglin Pan, Xiaowen Chu
cs.AI
Samenvatting
Het bewerken van modellen is een steeds populairdere alternatief geworden voor het efficiënt bijwerken van kennis binnen taalmodellen. Huidige methoden richten zich voornamelijk op betrouwbaarheid, generalisatie en lokaliteit, waarbij veel methoden uitblinken op deze criteria. Sommige recente werken onthullen de valkuilen van deze bewerkingsmethoden, zoals kennisvervorming of conflicten. De algemene mogelijkheden van bewerkte taalmodellen blijven echter onontgonnen. In dit artikel voeren we een uitgebreide evaluatie uit van verschillende bewerkingsmethoden en verschillende taalmodellen, met de volgende bevindingen. (1) Bestaande bewerkingsmethoden leiden tot onvermijdelijke prestatievermindering op algemene benchmarks, wat aangeeft dat bestaande bewerkingsmethoden de algemene mogelijkheden van het model slechts bij enkele tientallen bewerkingen behouden. Wanneer het aantal bewerkingen iets groter is, wordt de intrinsieke kennisstructuur van het model verstoord of zelfs volledig beschadigd. (2) Instructie-aangepaste modellen zijn robuuster tegen bewerkingen, met minder prestatieverlies op algemene kennis na bewerking. (3) Taalmodellen op grote schaal zijn meer bestand tegen bewerkingen in vergelijking met kleine modellen. (4) De veiligheid van het bewerkte model wordt aanzienlijk verzwakt, zelfs voor die modellen die gericht zijn op veiligheid. Onze bevindingen geven aan dat huidige bewerkingsmethoden alleen geschikt zijn voor kleinschalige kennisupdates binnen taalmodellen, wat verder onderzoek motiveert naar meer praktische en betrouwbare bewerkingsmethoden. De details van de code en reproductie zijn te vinden op https://github.com/lqinfdim/EditingEvaluation.
English
Model editing has become an increasingly popular alternative for efficiently
updating knowledge within language models. Current methods mainly focus on
reliability, generalization, and locality, with many methods excelling across
these criteria. Some recent works disclose the pitfalls of these editing
methods such as knowledge distortion or conflict. However, the general
abilities of post-edited language models remain unexplored. In this paper, we
perform a comprehensive evaluation on various editing methods and different
language models, and have following findings. (1) Existing editing methods lead
to inevitable performance deterioration on general benchmarks, indicating that
existing editing methods maintain the general abilities of the model within
only a few dozen edits. When the number of edits is slightly large, the
intrinsic knowledge structure of the model is disrupted or even completely
damaged. (2) Instruction-tuned models are more robust to editing, showing less
performance drop on general knowledge after editing. (3) Language model with
large scale is more resistant to editing compared to small model. (4) The
safety of the edited model, is significantly weakened, even for those
safety-aligned models. Our findings indicate that current editing methods are
only suitable for small-scale knowledge updates within language models, which
motivates further research on more practical and reliable editing methods. The
details of code and reproduction can be found in
https://github.com/lqinfdim/EditingEvaluation.Summary
AI-Generated Summary