ZJUKLAB a SemEval-2025 Task 4: Disapprendimento tramite Fusione di Modelli

Abstract

Questo articolo presenta la proposta del team ZJUKLAB per il Task 4 di SemEval-2025: Rimozione di Contenuti Sensibili dai Modelli Linguistici di Grande Dimensione. Questo task mira a cancellare selettivamente conoscenze sensibili dai modelli linguistici di grande dimensione, evitando sia problemi di sovra-rimozione che di sotto-rimozione. Proponiamo un sistema di rimozione che sfrutta il Model Merging (in particolare TIES-Merging), combinando due modelli specializzati in un modello bilanciato e privo di contenuti sensibili. Il nostro sistema ottiene risultati competitivi, classificandosi al secondo posto tra 26 team, con un punteggio online di 0.944 per il Task Aggregate e 0.487 per l’Aggregate complessivo. In questo articolo, conduciamo anche esperimenti locali e un'analisi completa del processo di rimozione, esaminando le traiettorie delle prestazioni, le dinamiche della perdita e le prospettive sui pesi, insieme a diversi esperimenti supplementari, per comprendere l'efficacia del nostro metodo. Inoltre, analizziamo i limiti del nostro metodo e delle metriche di valutazione, sottolineando che i punteggi MIA e le metriche basate su ROUGE da sole non sono sufficienti per valutare completamente il successo della rimozione. Infine, evidenziamo la necessità di metodologie di valutazione più complete e di una rielaborazione degli obiettivi della rimozione nella ricerca futura. Il codice è disponibile all'indirizzo https://github.com/zjunlp/unlearn/tree/main/semeval25.

English

This paper presents the ZJUKLAB team's submission for SemEval-2025 Task 4: Unlearning Sensitive Content from Large Language Models. This task aims to selectively erase sensitive knowledge from large language models, avoiding both over-forgetting and under-forgetting issues. We propose an unlearning system that leverages Model Merging (specifically TIES-Merging), combining two specialized models into a more balanced unlearned model. Our system achieves competitive results, ranking second among 26 teams, with an online score of 0.944 for Task Aggregate and 0.487 for overall Aggregate. In this paper, we also conduct local experiments and perform a comprehensive analysis of the unlearning process, examining performance trajectories, loss dynamics, and weight perspectives, along with several supplementary experiments, to understand the effectiveness of our method. Furthermore, we analyze the shortcomings of our method and evaluation metrics, emphasizing that MIA scores and ROUGE-based metrics alone are insufficient to fully evaluate successful unlearning. Finally, we emphasize the need for more comprehensive evaluation methodologies and rethinking of unlearning objectives in future research. Code is available at https://github.com/zjunlp/unlearn/tree/main/semeval25.

ZJUKLAB a SemEval-2025 Task 4: Disapprendimento tramite Fusione di Modelli

ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging

Abstract

Summary

Support

Support