Meravigliose Matrici: Combinazione per un'Architettura del Modello di Base più Efficient e Efficace
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture
December 16, 2024
Autori: Jingze Shi, Bingheng Wu
cs.AI
Abstract
Per rendere il modello di base più efficiente ed efficace, la nostra idea è quella di combinare la trasformazione della sequenza e la trasformazione dello stato. Prima di tutto, dimostriamo la disponibilità dell'incorporamento della posizione rotativa nell'algoritmo di dualità dello spazio di stato, che riduce la perplessità dell'autoattenzione causale ibrida quadratica e della dualità dello spazio di stato di oltre il 4%, per garantire che la combinazione della trasformazione della sequenza unifichi la codifica della posizione. In secondo luogo, proponiamo l'attenzione maschera dinamica, che mantiene una precisione del 100% nel compito più impegnativo di richiamo associativo multi-query, migliorando di oltre il 150% rispetto all'autoattenzione causale quadratica e alla dualità dello spazio di stato, per garantire che la trasformazione della sequenza combinata filtri selettivamente le informazioni rilevanti. Terzo, progettiamo un misto di esperti tra domini, che rende la velocità computazionale del recupero degli esperti con più di 1024 esperti 8-10 volte più veloce rispetto al misto di esperti, per garantire che la trasformazione dello stato combinata recuperi rapidamente il misto. Infine, riassumiamo questi algoritmi matriciali che possono costituire il modello di base: Matrici Meravigliose, che possono essere un concorrente alle architetture di modelli popolari.
English
In order to make the foundation model more efficient and effective, our idea
is combining sequence transformation and state transformation. First, we prove
the availability of rotary position embedding in the state space duality
algorithm, which reduces the perplexity of the hybrid quadratic causal
self-attention and state space duality by more than 4%, to ensure that the
combining sequence transformation unifies position encoding. Second, we propose
dynamic mask attention, which maintains 100% accuracy in the more challenging
multi-query associative recall task, improving by more than 150% compared to
quadratic causal self-attention and state space duality, to ensure that the
combining sequence transformation selectively filters relevant information.
Third, we design cross domain mixture of experts, which makes the computational
speed of expert retrieval with more than 1024 experts 8 to 10 times faster than
the mixture of experts, to ensure that the combining state transformation
quickly retrieval mixture. Finally, we summarize these matrix algorithms that
can form the foundation model: Wonderful Matrices, which can be a competitor to
popular model architectures.Summary
AI-Generated Summary