ChatPaper.aiChatPaper

DarwinLM: 대규모 언어 모델의 진화 기반 구조적 가지치기

DarwinLM: Evolutionary Structured Pruning of Large Language Models

February 11, 2025
저자: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
cs.AI

초록

대형 언어 모델(LLMs)은 다양한 자연어 처리(NLP) 작업에서 상당한 성공을 거두었습니다. 그러나 이들의 막대한 계산 비용은 특히 실시간 애플리케이션에서의 광범위한 사용을 제한합니다. 구조적 가지치기(Structured Pruning)는 모델을 압축하고 하드웨어 환경에 관계없이 종단 간 속도 개선을 직접 제공함으로써 효과적인 해결책을 제시합니다. 한편, 모델의 각 구성 요소는 가지치기에 대해 서로 다른 민감도를 보이므로, 비균일 모델 압축이 필요합니다. 그러나 가지치기 방법은 단순히 유능한 하위 구조를 식별하는 것뿐만 아니라 압축 후 학습도 고려해야 합니다. 이를 위해 우리는 학습을 고려한 구조적 가지치기 방법인 \sysname을 제안합니다. \sysname은 진화적 탐색 과정을 기반으로 하여, 각 세대에서 돌연변이를 통해 여러 자손 모델을 생성하고 가장 적합한 모델을 선택합니다. 학습 후 효과를 평가하기 위해, 우리는 자손 모델 집단 내에 가볍고 다단계 학습 과정을 통합하여, 각 선택 단계에서 토큰 수를 점진적으로 증가시키고 성능이 낮은 모델을 제거합니다. 우리는 Llama-2-7B, Llama-3.1-8B 및 Qwen-2.5-14B-Instruct에 대한 광범위한 실험을 통해 이 방법을 검증하고, 구조적 가지치기 분야에서 최첨단 성능을 달성했습니다. 예를 들어, \sysname은 ShearedLlama를 능가하면서도 압축 후 학습 중에 5배 적은 학습 데이터를 요구합니다.
English
Large Language Models (LLMs) have achieved significant success across various NLP tasks. However, their massive computational costs limit their widespread use, particularly in real-time applications. Structured pruning offers an effective solution by compressing models and directly providing end-to-end speed improvements, regardless of the hardware environment. Meanwhile, different components of the model exhibit varying sensitivities towards pruning, calling for non-uniform model compression. However, a pruning method should not only identify a capable substructure, but also account for post-compression training. To this end, we propose \sysname, a method for training-aware structured pruning. \sysname builds upon an evolutionary search process, generating multiple offspring models in each generation through mutation, and selecting the fittest for survival. To assess the effect of post-training, we incorporate a lightweight, multistep training process within the offspring population, progressively increasing the number of tokens and eliminating poorly performing models in each selection stage. We validate our method through extensive experiments on Llama-2-7B, Llama-3.1-8B and Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured pruning. For instance, \sysname surpasses ShearedLlama while requiring 5times less training data during post-compression training.

Summary

AI-Generated Summary

PDF177February 17, 2025