다항식 합성 활성화: 대규모 언어 모델의 동역학 해방하기
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models
November 6, 2024
저자: Zhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma
cs.AI
초록
트랜스포머는 강력한 fitting 능력으로 인해 다양한 영역에서 광범위한 응용 분야를 찾았습니다. 이 성공은 그들의 내재적인 비선형성에 부분적으로 기인합니다. 따라서 원래의 트랜스포머 아키텍처에서 사용된 ReLU 함수에 추가하여, 연구자들은 GeLU 및 SwishGLU와 같은 대안적인 모듈을 탐구하여 비선형성을 향상시키고 이로써 표현 능력을 증가시키기 위해 노력했습니다. 본 논문에서는 트랜스포머의 동역합성 활성화 함수(PolyCom)라는 새로운 범주를 제안하며, 이는 트랜스포머의 동역학을 최적화하기 위해 설계되었습니다. 이론적으로, 우리는 PolyCom의 향상된 표현 능력과 효과를 강조하는 포괄적인 수학적 분석을 제공합니다. 특히, PolyCom을 포함하는 네트워크가 최적의 근사율을 달성하며, 이는 PolyCom 네트워크가 Sobolev 공간에서 일반적인 부드러운 함수를 근사하기 위해 최소한의 매개변수를 필요로 한다는 것을 보여줍니다. 우리는 대규모 언어 모델(Large Language Models, LLMs)의 사전 훈련 구성에 대한 실험을 수행하였으며, 밀집 및 희소 아키텍처를 모두 포함합니다. PolyCom으로 전통적인 활성화 함수를 대체함으로써, LLMs가 데이터 내에서 고차 상호작용을 포착할 수 있도록 하여 정확도 및 수렴 속도 측면에서 성능 지표를 향상시킵니다. 광범위한 실험 결과는 우리의 방법의 효과를 입증하며, 다른 활성화 함수보다 상당한 개선을 보여줍니다. 코드는 https://github.com/BryceZhuo/PolyCom에서 사용할 수 있습니다.
English
Transformers have found extensive applications across various domains due to
the powerful fitting capabilities. This success can be partially attributed to
their inherent nonlinearity. Thus, in addition to the ReLU function employed in
the original transformer architecture, researchers have explored alternative
modules such as GeLU and SwishGLU to enhance nonlinearity and thereby augment
representational capacity. In this paper, we propose a novel category of
polynomial composition activations (PolyCom), designed to optimize the dynamics
of transformers. Theoretically, we provide a comprehensive mathematical
analysis of PolyCom, highlighting its enhanced expressivity and efficacy
relative to other activation functions. Notably, we demonstrate that networks
incorporating PolyCom achieve the optimal approximation rate,
indicating that PolyCom networks require minimal parameters to approximate
general smooth functions in Sobolev spaces. We conduct empirical experiments on
the pre-training configurations of large language models (LLMs), including both
dense and sparse architectures. By substituting conventional activation
functions with PolyCom, we enable LLMs to capture higher-order interactions
within the data, thus improving performance metrics in terms of accuracy and
convergence rates. Extensive experimental results demonstrate the effectiveness
of our method, showing substantial improvements over other activation
functions. Code is available at https://github.com/BryceZhuo/PolyCom.Summary
AI-Generated Summary