Sollten wir Sprachmodelle wirklich bearbeiten? Zur Bewertung von bearbeiteten Sprachmodellen
Should We Really Edit Language Models? On the Evaluation of Edited Language Models
October 24, 2024
Autoren: Qi Li, Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Xinglin Pan, Xiaowen Chu
cs.AI
Zusammenfassung
Die Bearbeitung von Modellen hat sich zu einer zunehmend beliebten Alternative entwickelt, um Wissen innerhalb von Sprachmodellen effizient zu aktualisieren. Aktuelle Methoden konzentrieren sich hauptsächlich auf Zuverlässigkeit, Verallgemeinerung und Lokalität, wobei viele Methoden in diesen Kriterien hervorragende Leistungen erbringen. Einige aktuelle Arbeiten offenbaren die Fallstricke dieser Bearbeitungsmethoden wie Wissensverzerrung oder Konflikte. Die allgemeinen Fähigkeiten von nachbearbeiteten Sprachmodellen bleiben jedoch unerforscht. In diesem Paper führen wir eine umfassende Bewertung verschiedener Bearbeitungsmethoden und unterschiedlicher Sprachmodelle durch und haben folgende Erkenntnisse. (1) Bestehende Bearbeitungsmethoden führen zu unvermeidlichem Leistungsabfall bei allgemeinen Benchmarks, was darauf hindeutet, dass bestehende Bearbeitungsmethoden die allgemeinen Fähigkeiten des Modells nur bei wenigen Dutzend Bearbeitungen beibehalten. Wenn die Anzahl der Bearbeitungen etwas größer ist, wird die intrinsische Wissensstruktur des Modells gestört oder sogar vollständig beschädigt. (2) Anweisungsangepasste Modelle sind robuster gegenüber Bearbeitungen und zeigen weniger Leistungsabfall bei allgemeinem Wissen nach der Bearbeitung. (3) Sprachmodelle im großen Maßstab sind widerstandsfähiger gegenüber Bearbeitungen im Vergleich zu kleinen Modellen. (4) Die Sicherheit des bearbeiteten Modells wird signifikant geschwächt, selbst bei Sicherheitsausgerichteten Modellen. Unsere Ergebnisse deuten darauf hin, dass aktuelle Bearbeitungsmethoden nur für kleinere Wissensaktualisierungen innerhalb von Sprachmodellen geeignet sind, was weitere Forschung zu praktischeren und zuverlässigeren Bearbeitungsmethoden motiviert. Einzelheiten zum Code und zur Reproduktion finden Sie unter https://github.com/lqinfdim/EditingEvaluation.
English
Model editing has become an increasingly popular alternative for efficiently
updating knowledge within language models. Current methods mainly focus on
reliability, generalization, and locality, with many methods excelling across
these criteria. Some recent works disclose the pitfalls of these editing
methods such as knowledge distortion or conflict. However, the general
abilities of post-edited language models remain unexplored. In this paper, we
perform a comprehensive evaluation on various editing methods and different
language models, and have following findings. (1) Existing editing methods lead
to inevitable performance deterioration on general benchmarks, indicating that
existing editing methods maintain the general abilities of the model within
only a few dozen edits. When the number of edits is slightly large, the
intrinsic knowledge structure of the model is disrupted or even completely
damaged. (2) Instruction-tuned models are more robust to editing, showing less
performance drop on general knowledge after editing. (3) Language model with
large scale is more resistant to editing compared to small model. (4) The
safety of the edited model, is significantly weakened, even for those
safety-aligned models. Our findings indicate that current editing methods are
only suitable for small-scale knowledge updates within language models, which
motivates further research on more practical and reliable editing methods. The
details of code and reproduction can be found in
https://github.com/lqinfdim/EditingEvaluation.Summary
AI-Generated Summary