La nature de la modélisation mathématique et de l'optimisation probabiliste en ingénierie dans l'IA générative
The Nature of Mathematical Modeling and Probabilistic Optimization Engineering in Generative AI
October 24, 2024
Auteurs: Fulu Li
cs.AI
Résumé
Dans cet article, nous proposons une analyse approfondie des formulations de problèmes mathématiques et des explorations d'optimisation probabiliste pour certains des composants clés du modèle Transformer [33] dans le domaine de l'IA générative. Nous explorons et discutons des améliorations potentielles pour les méthodes de pointe actuelles concernant certaines technologies sous-jacentes clés des modèles d'IA générative du point de vue de l'algorithmique et de l'optimisation probabiliste. En particulier, nous présentons une solution optimale pour le codage de sous-mots (SWE) basée sur des paramètres initiaux similaires à ceux de l'algorithme d'encodage de paires de bytes (BPE) dans [9] avec des objectifs similaires à ceux de l'approche WordPiece dans [28, 31] pour maximiser la vraisemblance des données d'entraînement. Nous présentons également une méthode d'optimisation de l'entropie croisée pour optimiser les hyperparamètres du modèle word2vec [17]. De plus, nous proposons une combinaison factorisée du codage positionnel rotatif (RoPE) [32] et de l'attention avec des biais linéaires (ALiBi) [23] avec une série harmonique. Nous présentons également une méthode d'attention FlashAttention probabiliste [6, 7] (PrFlashAttention) avec une distribution de probabilité sur les distances de blocs dans la matrice pour décider quel bloc est susceptible de participer à un tour donné de calcul d'attention tout en maintenant la forme de triangle inférieur du tenseur pour les modèles de langage autorégressifs en remodelant les tenseurs. Enfin, nous présentons une quantification adaptative en escalier (SAQ) du cache clé-valeur (KV) pour l'attention multi-requête (MQA) basée sur le cadre présenté dans [16] pour avoir une dégradation progressive de la quantification tout en obtenant une qualité de modèle raisonnable et des économies de coûts.
English
In this paper, we give an in-depth analysis on the mathematical problem
formulations and the probabilistic optimization explorations for some of the
key components in Transformer model [33] in the field of generative AI. We
explore and discuss some potential further enhancement for current state of the
art methods for some key underlying technologies of generative AI models from
algorithmic and probabilistic optimization perspective. In particular, we
present an optimal solution for sub-word encoding (SWE) based on similar
initial settings as that of byte-pair encoding (BPE) algorithm in [9] with
similar objectives as that of WordPiece approach in [28, 31] to maximize the
likelihood of the training data. We also present cross entropy optimization
method to optimize hyperparameters for word2vec model [17]. In addition, we
propose a factored combination of rotary positional encoding (RoPE) [32] and
attention with linear biases (ALiBi) [23] with a harmonic series. We also
present a probabilistic FlashAttention [6, 7] (PrFlashAttention) method with a
probability distribution over block distances in the matrix to decide which
block is likely to participate in a given round of attention computation while
maintaining the lower triangle shape of the tensor for autoregressive language
models by re-shaping the tensors. Finally, we present staircase adaptive
quantization (SAQ) of key-value (KV) cache for multi-query attention (MQA)
based on the framework presented in [16] to have gradual quantization
degradation while achieving reasonable model quality and cost savings.Summary
AI-Generated Summary