ZJUKLAB a SemEval-2025 Task 4: Disapprendimento tramite Fusione di Modelli
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging
March 27, 2025
Autori: Haoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI
Abstract
Questo articolo presenta la proposta del team ZJUKLAB per il Task 4 di SemEval-2025: Rimozione di Contenuti Sensibili dai Modelli Linguistici di Grande Dimensione. Questo task mira a cancellare selettivamente conoscenze sensibili dai modelli linguistici di grande dimensione, evitando sia problemi di sovra-rimozione che di sotto-rimozione. Proponiamo un sistema di rimozione che sfrutta il Model Merging (in particolare TIES-Merging), combinando due modelli specializzati in un modello bilanciato e privo di contenuti sensibili. Il nostro sistema ottiene risultati competitivi, classificandosi al secondo posto tra 26 team, con un punteggio online di 0.944 per il Task Aggregate e 0.487 per l’Aggregate complessivo. In questo articolo, conduciamo anche esperimenti locali e un'analisi completa del processo di rimozione, esaminando le traiettorie delle prestazioni, le dinamiche della perdita e le prospettive sui pesi, insieme a diversi esperimenti supplementari, per comprendere l'efficacia del nostro metodo. Inoltre, analizziamo i limiti del nostro metodo e delle metriche di valutazione, sottolineando che i punteggi MIA e le metriche basate su ROUGE da sole non sono sufficienti per valutare completamente il successo della rimozione. Infine, evidenziamo la necessità di metodologie di valutazione più complete e di una rielaborazione degli obiettivi della rimozione nella ricerca futura. Il codice è disponibile all'indirizzo https://github.com/zjunlp/unlearn/tree/main/semeval25.
English
This paper presents the ZJUKLAB team's submission for SemEval-2025 Task 4:
Unlearning Sensitive Content from Large Language Models. This task aims to
selectively erase sensitive knowledge from large language models, avoiding both
over-forgetting and under-forgetting issues. We propose an unlearning system
that leverages Model Merging (specifically TIES-Merging), combining two
specialized models into a more balanced unlearned model. Our system achieves
competitive results, ranking second among 26 teams, with an online score of
0.944 for Task Aggregate and 0.487 for overall Aggregate. In this paper, we
also conduct local experiments and perform a comprehensive analysis of the
unlearning process, examining performance trajectories, loss dynamics, and
weight perspectives, along with several supplementary experiments, to
understand the effectiveness of our method. Furthermore, we analyze the
shortcomings of our method and evaluation metrics, emphasizing that MIA scores
and ROUGE-based metrics alone are insufficient to fully evaluate successful
unlearning. Finally, we emphasize the need for more comprehensive evaluation
methodologies and rethinking of unlearning objectives in future research. Code
is available at https://github.com/zjunlp/unlearn/tree/main/semeval25.Summary
AI-Generated Summary