대규모 언어 모델 병합을 위한 모델 유사성 탐색

Exploring Model Kinship for Merging Large Language Models

October 16, 2024
저자: Yedi Hu, Yunzhi Yao, Ningyu Zhang, Shumin Deng, Huajun Chen
cs.AI

초록

모델 병합은 대형 언어 모델(LLM)의 능력과 효율성을 향상시키는 핵심 기술 중 하나가 되었습니다. 그러나 어떤 두 모델을 병합할 때 기대되는 성능 향상과 원칙에 대한 이해는 여전히 제한적입니다. 본 연구에서는 생물학적 진화와 유사한 개념으로, LLM 간 유사성이나 관련성의 정도를 나타내는 모델 친족성을 소개합니다. 포괄적인 경험적 분석을 통해, 모델 친족성과 모델 병합 후 성능 향상 사이에 특정한 관계가 있음을 발견했으며, 이는 후보 모델 선택을 지원할 수 있습니다. 이를 바탕으로, 우리는 새로운 모델 병합 전략을 제안합니다: 모델 친족성을 고려한 Top-k Greedy 병합, 이는 벤치마크 데이터셋에서 더 나은 성능을 제공할 수 있습니다. 구체적으로, 모델 친족성을 기준으로 사용함으로써 모델 병합을 지속적으로 수행함으로써 모델 진화 중의 저하(지역 최적해)를 완화할 수 있음을 발견했으며, 모델 친족성은 이러한 함정을 피하는 데 도움이 될 수 있습니다. 코드는 https://github.com/zjunlp/ModelKinship에서 확인할 수 있습니다.
English
Model merging has become one of the key technologies for enhancing the capabilities and efficiency of Large Language Models (LLMs). However, our understanding of the expected performance gains and principles when merging any two models remains limited. In this work, we introduce model kinship, the degree of similarity or relatedness between LLMs, analogous to biological evolution. With comprehensive empirical analysis, we find that there is a certain relationship between model kinship and the performance gains after model merging, which can help guide our selection of candidate models. Inspired by this, we propose a new model merging strategy: Top-k Greedy Merging with Model Kinship, which can yield better performance on benchmark datasets. Specifically, we discover that using model kinship as a criterion can assist us in continuously performing model merging, alleviating the degradation (local optima) in model evolution, whereas model kinship can serve as a guide to escape these traps. Code is available at https://github.com/zjunlp/ModelKinship.

Summary

AI-Generated Summary

PDF193November 16, 2024