Devrions-nous vraiment éditer les modèles de langage ? Sur l'évaluation des modèles de langage édités
Should We Really Edit Language Models? On the Evaluation of Edited Language Models
October 24, 2024
Auteurs: Qi Li, Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Xinglin Pan, Xiaowen Chu
cs.AI
Résumé
La modification de modèles est devenue une alternative de plus en plus populaire pour mettre à jour efficacement les connaissances au sein des modèles de langage. Les méthodes actuelles se concentrent principalement sur la fiabilité, la généralisation et la localité, de nombreuses méthodes excellant dans ces critères. Certains travaux récents révèlent les écueils de ces méthodes de modification tels que la distorsion ou les conflits de connaissances. Cependant, les capacités générales des modèles de langage post-édités restent inexplorées. Dans cet article, nous réalisons une évaluation complète de diverses méthodes de modification et de différents modèles de langage, et avons les résultats suivants. (1) Les méthodes de modification existantes entraînent inévitablement une détérioration des performances sur des benchmarks généraux, ce qui indique que les méthodes de modification existantes maintiennent les capacités générales du modèle après seulement quelques dizaines de modifications. Lorsque le nombre de modifications est légèrement plus élevé, la structure de connaissance intrinsèque du modèle est perturbée, voire complètement endommagée. (2) Les modèles ajustés aux instructions sont plus robustes à la modification, montrant une baisse moins importante des performances en matière de connaissances générales après la modification. (3) Les modèles de langage à grande échelle sont plus résistants à la modification par rapport aux petits modèles. (4) La sécurité du modèle modifié est significativement affaiblie, même pour les modèles alignés sur la sécurité. Nos résultats indiquent que les méthodes de modification actuelles conviennent uniquement aux mises à jour de connaissances à petite échelle au sein des modèles de langage, ce qui incite à poursuivre la recherche sur des méthodes de modification plus pratiques et fiables. Les détails du code et de la reproduction sont disponibles sur https://github.com/lqinfdim/EditingEvaluation.
English
Model editing has become an increasingly popular alternative for efficiently
updating knowledge within language models. Current methods mainly focus on
reliability, generalization, and locality, with many methods excelling across
these criteria. Some recent works disclose the pitfalls of these editing
methods such as knowledge distortion or conflict. However, the general
abilities of post-edited language models remain unexplored. In this paper, we
perform a comprehensive evaluation on various editing methods and different
language models, and have following findings. (1) Existing editing methods lead
to inevitable performance deterioration on general benchmarks, indicating that
existing editing methods maintain the general abilities of the model within
only a few dozen edits. When the number of edits is slightly large, the
intrinsic knowledge structure of the model is disrupted or even completely
damaged. (2) Instruction-tuned models are more robust to editing, showing less
performance drop on general knowledge after editing. (3) Language model with
large scale is more resistant to editing compared to small model. (4) The
safety of the edited model, is significantly weakened, even for those
safety-aligned models. Our findings indicate that current editing methods are
only suitable for small-scale knowledge updates within language models, which
motivates further research on more practical and reliable editing methods. The
details of code and reproduction can be found in
https://github.com/lqinfdim/EditingEvaluation.Summary
AI-Generated Summary