ChatPaper.aiChatPaper

ReLearn: 대규모 언어 모델을 위한 학습을 통한 재학습

ReLearn: Unlearning via Learning for Large Language Models

February 16, 2025
저자: Haoming Xu, Ningyuan Zhao, Liming Yang, Sendong Zhao, Shumin Deng, Mengru Wang, Bryan Hooi, Nay Oo, Huajun Chen, Ningyu Zhang
cs.AI

초록

대규모 언어 모델에 대한 현재 재학습 방법은 일반적으로 대상 토큰 확률을 줄이기 위해 역 최적화에 의존합니다. 그러나 이 패러다임은 후속 토큰 예측을 방해하여 모델 성능과 언어 일관성을 저하시킵니다. 게다가, 기존의 평가 지표는 맥락적인 잊힘을 과도하게 강조하면서 응답 유창성과 관련성을 부적절하게 평가합니다. 이러한 도전에 대처하기 위해 우리는 효과적인 재학습을 위한 데이터 증강 및 세밀 조정 파이프라인인 ReLearn과 포괄적인 평가 프레임워크를 제안합니다. 이 프레임워크는 지식 잊힘 비율(KFR) 및 지식 보존 비율(KRR)을 도입하여 지식 수준의 보존을 측정하며, 언어 점수(LS)를 통해 생성 품질을 평가합니다. 우리의 실험 결과, ReLearn이 목표로 하는 잊힘을 성공적으로 달성하면서 고품질 출력을 보존하는 것을 보여줍니다. 기계적 분석을 통해, 역 최적화가 일관된 텍스트 생성을 방해하는 반면, ReLearn은 이 중요한 능력을 보존하는 방법을 자세히 설명합니다. 코드는 https://github.com/zjunlp/unlearn에서 확인할 수 있습니다.
English
Current unlearning methods for large language models usually rely on reverse optimization to reduce target token probabilities. However, this paradigm disrupts the subsequent tokens prediction, degrading model performance and linguistic coherence. Moreover, existing evaluation metrics overemphasize contextual forgetting while inadequately assessing response fluency and relevance. To address these challenges, we propose ReLearn, a data augmentation and fine-tuning pipeline for effective unlearning, along with a comprehensive evaluation framework. This framework introduces Knowledge Forgetting Rate (KFR) and Knowledge Retention Rate (KRR) to measure knowledge-level preservation, and Linguistic Score (LS) to evaluate generation quality. Our experiments show that ReLearn successfully achieves targeted forgetting while preserving high-quality output. Through mechanistic analysis, we further demonstrate how reverse optimization disrupts coherent text generation, while ReLearn preserves this essential capability. Code is available at https://github.com/zjunlp/unlearn.

Summary

AI-Generated Summary

PDF282February 18, 2025