ChatPaper.aiChatPaper

대규모 언어 모델의 활성화 정보를 활용한 병합

Activation-Informed Merging of Large Language Models

February 4, 2025
저자: Amin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan
cs.AI

초록

모델 병합은 여러 개의 세밀하게 조정된 대형 언어 모델 (LLM)의 매개변수와 임베딩을 결합하는 방법으로, 계산 효율성을 유지하면서 다양한 작업에서 모델 성능을 향상시키는 유망한 방법을 제공합니다. 본 논문은 활성화 정보를 활용한 병합 (AIM)이라는 기술을 소개하며, LLM의 활성화 공간에서 정보를 통합하여 성능과 견고성을 향상시키는 방법을 제시합니다. AIM은 유연하고 보완적인 솔루션이며, 기존의 병합 방법에 적용 가능하도록 설계되었습니다. AIM은 기본 모델로부터 중요한 가중치를 보존하고, 계속적 학습 (CL) 및 모델 압축의 원칙을 활용합니다. 작업에 중립적인 보정 세트를 활용하여 AIM은 병합 중 중요한 가중치를 선택적으로 우선시합니다. 우리는 경험적으로 증명되었으며, AIM이 여러 벤치마크에서 병합된 모델의 성능을 크게 향상시킨다는 것을 보여줍니다. 우리의 연구 결과는 활성화 공간 정보를 고려함으로써, LLM의 모델 병합 전략에서 상당한 진전을 이룰 수 있으며, 벤치마크 성능이 최대 40% 향상될 수 있다는 것을 시사합니다.
English
Model merging, a method that combines the parameters and embeddings of multiple fine-tuned large language models (LLMs), offers a promising approach to enhance model performance across various tasks while maintaining computational efficiency. This paper introduces Activation-Informed Merging (AIM), a technique that integrates the information from the activation space of LLMs into the merging process to improve performance and robustness. AIM is designed as a flexible, complementary solution that is applicable to any existing merging method. It aims to preserve critical weights from the base model, drawing on principles from continual learning~(CL) and model compression. Utilizing a task-agnostic calibration set, AIM selectively prioritizes essential weights during merging. We empirically demonstrate that AIM significantly enhances the performance of merged models across multiple benchmarks. Our findings suggest that considering the activation-space information can provide substantial advancements in the model merging strategies for LLMs with up to 40\% increase in benchmark performance.

Summary

AI-Generated Summary

PDF52February 6, 2025