언어 모델을 편집해야 할까? 편집된 언어 모델의 평가에 대해
Should We Really Edit Language Models? On the Evaluation of Edited Language Models
October 24, 2024
저자: Qi Li, Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Xinglin Pan, Xiaowen Chu
cs.AI
초록
모델 편집은 언어 모델 내에서 지식을 효율적으로 업데이트하는 점에서 점점 더 인기 있는 대안이 되어왔습니다. 현재 방법들은 주로 신뢰성, 일반화, 지역성에 초점을 맞추며, 이러한 기준을 넘어선 많은 방법들이 있습니다. 최근 연구들 중 일부는 이러한 편집 방법들의 함정인 지식 왜곡이나 충돌을 드러내고 있습니다. 그러나, 편집된 언어 모델의 일반적인 능력은 아직 탐구되지 않았습니다. 본 논문에서는 다양한 편집 방법과 다른 언어 모델에 대한 포괄적인 평가를 수행하고 다음과 같은 결과를 얻었습니다. (1) 기존의 편집 방법은 일반적인 벤치마크에서 불가피한 성능 저하를 유발하며, 기존의 편집 방법은 모델의 일반적인 능력을 몇 번의 편집만으로 유지할 수 있음을 나타냅니다. 편집 횟수가 조금만 많아져도 모델의 본질적인 지식 구조가 교란되거나 완전히 파괴됩니다. (2) 지시에 맞춰 조정된 모델은 편집에 대해 더 견고하며, 편집 이후 일반 지식에서의 성능 하락이 적습니다. (3) 대규모 언어 모델은 작은 모델에 비해 편집에 더 저항력을 보입니다. (4) 편집된 모델의 안전성은 심지어 안전성에 맞춰진 모델들에게도 상당히 약화됩니다. 우리의 연구 결과는 현재의 편집 방법이 언어 모델 내에서 소규모 지식 업데이트에만 적합하며, 더 실용적이고 신뢰할 수 있는 편집 방법에 대한 추가 연구를 독려합니다. 코드 및 재현 세부 사항은 https://github.com/lqinfdim/EditingEvaluation에서 확인할 수 있습니다.
English
Model editing has become an increasingly popular alternative for efficiently
updating knowledge within language models. Current methods mainly focus on
reliability, generalization, and locality, with many methods excelling across
these criteria. Some recent works disclose the pitfalls of these editing
methods such as knowledge distortion or conflict. However, the general
abilities of post-edited language models remain unexplored. In this paper, we
perform a comprehensive evaluation on various editing methods and different
language models, and have following findings. (1) Existing editing methods lead
to inevitable performance deterioration on general benchmarks, indicating that
existing editing methods maintain the general abilities of the model within
only a few dozen edits. When the number of edits is slightly large, the
intrinsic knowledge structure of the model is disrupted or even completely
damaged. (2) Instruction-tuned models are more robust to editing, showing less
performance drop on general knowledge after editing. (3) Language model with
large scale is more resistant to editing compared to small model. (4) The
safety of the edited model, is significantly weakened, even for those
safety-aligned models. Our findings indicate that current editing methods are
only suitable for small-scale knowledge updates within language models, which
motivates further research on more practical and reliable editing methods. The
details of code and reproduction can be found in
https://github.com/lqinfdim/EditingEvaluation.Summary
AI-Generated Summary