ChatPaper.aiChatPaper

MUDDFormer: 다중 경로 동적 밀집 연결을 통한 트랜스포머의 잔여 병목 현상 해결

MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

February 13, 2025
저자: Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan
cs.AI

초록

우리는 Transformer의 교차 계층 정보 흐름을 강화하고 잔차 연결의 한계를 해결하기 위한 간단하면서도 효과적인 방법인 MUltiway Dynamic Dense (MUDD) 연결을 제안한다. 기존의 정적이고 공유된 연결 가중치를 사용하는 밀집 연결 접근법과 달리, MUDD는 Transformer 블록의 각 시퀀스 위치와 분리된 입력 스트림(쿼리, 키, 값 또는 잔차)에 따라 연결 가중치를 동적으로 생성한다. MUDD 연결은 어떤 Transformer 아키텍처에도 원활하게 통합되어 MUDDFormer를 생성할 수 있다. 광범위한 실험 결과, MUDDFormer는 다양한 모델 아키텍처와 규모에서 언어 모델링 작업에서 Transformer를 크게 능가하며, 1.8배에서 2.4배의 계산량으로 학습된 Transformer의 성능을 달성한다. 특히, MUDDPythia-2.8B는 사전 학습 perplexity와 다운스트림 작업에서 Pythia-6.9B와 동등한 성능을 보이며, 5-shot 설정에서는 Pythia-12B와도 경쟁력을 보인다. 이는 단지 0.23%의 매개변수와 0.4%의 계산량만 추가하여 이루어진다. JAX 및 PyTorch로 구현된 코드와 사전 학습된 모델은 https://github.com/Caiyun-AI/MUDDFormer에서 확인할 수 있다.
English
We propose MUltiway Dynamic Dense (MUDD) connections, a simple yet effective method to address the limitations of residual connections and enhance cross-layer information flow in Transformers. Unlike existing dense connection approaches with static and shared connection weights, MUDD generates connection weights dynamically depending on hidden states at each sequence position and for each decoupled input stream (the query, key, value or residual) of a Transformer block. MUDD connections can be seamlessly integrated into any Transformer architecture to create MUDDFormer. Extensive experiments show that MUDDFormer significantly outperforms Transformers across various model architectures and scales in language modeling, achieving the performance of Transformers trained with 1.8X-2.4X compute. Notably, MUDDPythia-2.8B matches Pythia-6.9B in pretraining ppl and downstream tasks and even rivals Pythia-12B in five-shot settings, while adding only 0.23% parameters and 0.4% computation. Code in JAX and PyTorch and pre-trained models are available at https://github.com/Caiyun-AI/MUDDFormer .

Summary

AI-Generated Summary

PDF102February 19, 2025