La nature de la modélisation mathématique et de l'optimisation probabiliste en ingénierie dans l'IA générative

Résumé

Dans cet article, nous proposons une analyse approfondie des formulations de problèmes mathématiques et des explorations d'optimisation probabiliste pour certains des composants clés du modèle Transformer [33] dans le domaine de l'IA générative. Nous explorons et discutons des améliorations potentielles pour les méthodes de pointe actuelles concernant certaines technologies sous-jacentes clés des modèles d'IA générative du point de vue de l'algorithmique et de l'optimisation probabiliste. En particulier, nous présentons une solution optimale pour le codage de sous-mots (SWE) basée sur des paramètres initiaux similaires à ceux de l'algorithme d'encodage de paires de bytes (BPE) dans [9] avec des objectifs similaires à ceux de l'approche WordPiece dans [28, 31] pour maximiser la vraisemblance des données d'entraînement. Nous présentons également une méthode d'optimisation de l'entropie croisée pour optimiser les hyperparamètres du modèle word2vec [17]. De plus, nous proposons une combinaison factorisée du codage positionnel rotatif (RoPE) [32] et de l'attention avec des biais linéaires (ALiBi) [23] avec une série harmonique. Nous présentons également une méthode d'attention FlashAttention probabiliste [6, 7] (PrFlashAttention) avec une distribution de probabilité sur les distances de blocs dans la matrice pour décider quel bloc est susceptible de participer à un tour donné de calcul d'attention tout en maintenant la forme de triangle inférieur du tenseur pour les modèles de langage autorégressifs en remodelant les tenseurs. Enfin, nous présentons une quantification adaptative en escalier (SAQ) du cache clé-valeur (KV) pour l'attention multi-requête (MQA) basée sur le cadre présenté dans [16] pour avoir une dégradation progressive de la quantification tout en obtenant une qualité de modèle raisonnable et des économies de coûts.

English

In this paper, we give an in-depth analysis on the mathematical problem formulations and the probabilistic optimization explorations for some of the key components in Transformer model [33] in the field of generative AI. We explore and discuss some potential further enhancement for current state of the art methods for some key underlying technologies of generative AI models from algorithmic and probabilistic optimization perspective. In particular, we present an optimal solution for sub-word encoding (SWE) based on similar initial settings as that of byte-pair encoding (BPE) algorithm in [9] with similar objectives as that of WordPiece approach in [28, 31] to maximize the likelihood of the training data. We also present cross entropy optimization method to optimize hyperparameters for word2vec model [17]. In addition, we propose a factored combination of rotary positional encoding (RoPE) [32] and attention with linear biases (ALiBi) [23] with a harmonic series. We also present a probabilistic FlashAttention [6, 7] (PrFlashAttention) method with a probability distribution over block distances in the matrix to decide which block is likely to participate in a given round of attention computation while maintaining the lower triangle shape of the tensor for autoregressive language models by re-shaping the tensors. Finally, we present staircase adaptive quantization (SAQ) of key-value (KV) cache for multi-query attention (MQA) based on the framework presented in [16] to have gradual quantization degradation while achieving reasonable model quality and cost savings.

La nature de la modélisation mathématique et de l'optimisation probabiliste en ingénierie dans l'IA générative

The Nature of Mathematical Modeling and Probabilistic Optimization Engineering in Generative AI

Résumé

Summary

Support