Devrions-nous vraiment éditer les modèles de langage ? Sur l'évaluation des modèles de langage édités

Résumé

La modification de modèles est devenue une alternative de plus en plus populaire pour mettre à jour efficacement les connaissances au sein des modèles de langage. Les méthodes actuelles se concentrent principalement sur la fiabilité, la généralisation et la localité, de nombreuses méthodes excellant dans ces critères. Certains travaux récents révèlent les écueils de ces méthodes de modification tels que la distorsion ou les conflits de connaissances. Cependant, les capacités générales des modèles de langage post-édités restent inexplorées. Dans cet article, nous réalisons une évaluation complète de diverses méthodes de modification et de différents modèles de langage, et avons les résultats suivants. (1) Les méthodes de modification existantes entraînent inévitablement une détérioration des performances sur des benchmarks généraux, ce qui indique que les méthodes de modification existantes maintiennent les capacités générales du modèle après seulement quelques dizaines de modifications. Lorsque le nombre de modifications est légèrement plus élevé, la structure de connaissance intrinsèque du modèle est perturbée, voire complètement endommagée. (2) Les modèles ajustés aux instructions sont plus robustes à la modification, montrant une baisse moins importante des performances en matière de connaissances générales après la modification. (3) Les modèles de langage à grande échelle sont plus résistants à la modification par rapport aux petits modèles. (4) La sécurité du modèle modifié est significativement affaiblie, même pour les modèles alignés sur la sécurité. Nos résultats indiquent que les méthodes de modification actuelles conviennent uniquement aux mises à jour de connaissances à petite échelle au sein des modèles de langage, ce qui incite à poursuivre la recherche sur des méthodes de modification plus pratiques et fiables. Les détails du code et de la reproduction sont disponibles sur https://github.com/lqinfdim/EditingEvaluation.

English

Model editing has become an increasingly popular alternative for efficiently updating knowledge within language models. Current methods mainly focus on reliability, generalization, and locality, with many methods excelling across these criteria. Some recent works disclose the pitfalls of these editing methods such as knowledge distortion or conflict. However, the general abilities of post-edited language models remain unexplored. In this paper, we perform a comprehensive evaluation on various editing methods and different language models, and have following findings. (1) Existing editing methods lead to inevitable performance deterioration on general benchmarks, indicating that existing editing methods maintain the general abilities of the model within only a few dozen edits. When the number of edits is slightly large, the intrinsic knowledge structure of the model is disrupted or even completely damaged. (2) Instruction-tuned models are more robust to editing, showing less performance drop on general knowledge after editing. (3) Language model with large scale is more resistant to editing compared to small model. (4) The safety of the edited model, is significantly weakened, even for those safety-aligned models. Our findings indicate that current editing methods are only suitable for small-scale knowledge updates within language models, which motivates further research on more practical and reliable editing methods. The details of code and reproduction can be found in https://github.com/lqinfdim/EditingEvaluation.

Devrions-nous vraiment éditer les modèles de langage ? Sur l'évaluation des modèles de langage édités

Should We Really Edit Language Models? On the Evaluation of Edited Language Models

Résumé

Summary

Support