ChatPaper.aiChatPaper

멋진 행렬: 더 효율적이고 효과적인 기반 모델 아키텍처를 위한 결합

Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

December 16, 2024
저자: Jingze Shi, Bingheng Wu
cs.AI

초록

기초 모델을 보다 효율적이고 효과적으로 만들기 위해, 우리의 아이디어는 순서 변환과 상태 변환을 결합하는 것입니다. 먼저, 우리는 상태 공간 이중성 알고리즘에서 회전 위치 임베딩의 가용성을 증명합니다. 이로써 하이브리드 이차 인과적 셀프 어텐션과 상태 공간 이중성의 혼합 퍼플렉서티를 4% 이상 감소시켜 순서 변환을 통합하는 것을 보장합니다. 둘째, 우리는 동적 마스크 어텐션을 제안합니다. 이는 더 어려운 다중 쿼리 연관 회상 작업에서 100%의 정확도를 유지하며, 이차 인과적 셀프 어텐션과 상태 공간 이중성에 비해 150% 이상 향상되어 순서 변환이 관련 정보를 선택적으로 필터링하도록 보장합니다. 셋째, 우리는 전 영역 전문가 혼합을 설계합니다. 이는 1024명 이상의 전문가를 사용한 전문가 검색의 계산 속도를 전문가 혼합에 비해 8배에서 10배 빠르게 만들어 상태 변환을 빠르게 검색하도록 보장합니다. 마지막으로, 우리는 인기 있는 모델 아키텍처에 대항할 수 있는 경쟁자가 될 수 있는 멋진 행렬로 기초 모델을 형성할 수 있는 이러한 행렬 알고리즘을 요약합니다.
English
In order to make the foundation model more efficient and effective, our idea is combining sequence transformation and state transformation. First, we prove the availability of rotary position embedding in the state space duality algorithm, which reduces the perplexity of the hybrid quadratic causal self-attention and state space duality by more than 4%, to ensure that the combining sequence transformation unifies position encoding. Second, we propose dynamic mask attention, which maintains 100% accuracy in the more challenging multi-query associative recall task, improving by more than 150% compared to quadratic causal self-attention and state space duality, to ensure that the combining sequence transformation selectively filters relevant information. Third, we design cross domain mixture of experts, which makes the computational speed of expert retrieval with more than 1024 experts 8 to 10 times faster than the mixture of experts, to ensure that the combining state transformation quickly retrieval mixture. Finally, we summarize these matrix algorithms that can form the foundation model: Wonderful Matrices, which can be a competitor to popular model architectures.
PDF72December 17, 2024