하이퍼-연결
Hyper-Connections
September 29, 2024
저자: Defa Zhu, Hongzhi Huang, Zihao Huang, Yutao Zeng, Yunyao Mao, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI
초록
우리는 하이퍼-연결(hyper-connections)을 제안합니다. 이는 잔여 연결(residual connections)의 대안으로 작용할 수 있는 간단하면서도 효과적인 방법입니다. 이 접근 방식은 특히, 잔여 연결 변형에서 관측된 일반적인 단점들을 해결합니다. 이러한 단점으로는 그래디언트 소멸과 표현 붕괴 사이의 시소 효과(seesaw effect)가 포함됩니다. 이론적으로, 하이퍼-연결은 네트워크가 서로 다른 깊이의 특징들 간의 연결 강도를 조절하고 동적으로 레이어를 재배열할 수 있도록 합니다. 우리는 밀집(dense) 및 희소(sparse) 모델을 포함한 대규모 언어 모델의 사전 훈련에 중점을 둔 실험을 수행했으며, 이 과정에서 하이퍼-연결이 잔여 연결보다 상당한 성능 향상을 보여주었습니다. 시각 작업에 대한 추가 실험도 유사한 향상을 보여주었습니다. 이 방법이 다양한 AI 문제에 걸쳐 널리 적용되고 유익할 것으로 기대합니다.
English
We present hyper-connections, a simple yet effective method that can serve as
an alternative to residual connections. This approach specifically addresses
common drawbacks observed in residual connection variants, such as the seesaw
effect between gradient vanishing and representation collapse. Theoretically,
hyper-connections allow the network to adjust the strength of connections
between features at different depths and dynamically rearrange layers. We
conduct experiments focusing on the pre-training of large language models,
including dense and sparse models, where hyper-connections show significant
performance improvements over residual connections. Additional experiments
conducted on vision tasks also demonstrate similar improvements. We anticipate
that this method will be broadly applicable and beneficial across a wide range
of AI problems.Summary
AI-Generated Summary