ReLU의 부활: 정규화 없는 대규모 언어 모델에서의 엔트로피 과부하
ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models
October 12, 2024
저자: Nandan Kumar Jha, Brandon Reagen
cs.AI
초록
LayerNorm은 현대 대형 언어 모델 (LLM)에서 핵심 구성 요소로, 훈련을 안정화하고 원활한 최적화를 보장합니다. 그러나 이는 메커니즘 해석 가능성, 이상치 특성 억제, 충실한 신호 전파, 그리고 개인 추론의 계산 및 통신 복잡성에 중요한 도전을 제기합니다. 본 연구는 정규화가 없는 디코더 전용 LLMs에서 바람직한 활성화 함수를 탐구합니다. Transformer 기반 모델에서 GELU를 선호하는 것과는 달리, 우리의 경험적 결과는 반대로, ReLU가 LayerNorm이 없는 모델에서 GELU보다 현저히 우수함을 입증하며, perplexity를 8.2% 향상시킵니다. 우리는 GELU의 주요 문제를 발견했는데, 초기 레이어가 엔트로피 과부하를 경험하여, 어텐션 헤드의 표현 능력을 충분히 활용하지 못하게 됩니다. 이는 GELU와 같은 부드러운 활성화 함수가 LayerNorm이 없는 아키텍처에 적합하지 않음을 강조하며, 반면 ReLU의 기하학적 특성인 입력 공간에서의 전문화 및 클래스 내 선택성은 학습 동역학의 개선과 LayerNorm이 없을 때 정보 보존의 향상을 이끌어냅니다. 이 연구는 LayerNorm이 중요한 도전을 제기하는 transformer 아키텍처를 최적화하기 위한 중요한 통찰을 제공합니다.
English
LayerNorm is a critical component in modern large language models (LLMs) for
stabilizing training and ensuring smooth optimization. However, it introduces
significant challenges in mechanistic interpretability, outlier feature
suppression, faithful signal propagation, and computational and communication
complexity of private inference. This work explores desirable activation
functions in normalization-free decoder-only LLMs. Contrary to the conventional
preference for the GELU in transformer-based models, our empirical findings
demonstrate an {\em opposite trend} -- ReLU significantly outperforms GELU in
LayerNorm-free models, leading to an {\bf 8.2\%} perplexity improvement. We
discover a key issue with GELU, where early layers experience entropic
overload, leading to the under-utilization of the representational capacity of
attention heads. This highlights that smoother activations like GELU are {\em
ill-suited} for LayerNorm-free architectures, whereas ReLU's geometrical
properties -- specialization in input space and intra-class selectivity -- lead
to improved learning dynamics and better information retention in the absence
of LayerNorm. This study offers key insights for optimizing transformer
architectures where LayerNorm introduces significant challenges.Summary
AI-Generated Summary