Die Natur mathematischer Modellierung und probabilistischer Optimierung im Bereich der Generativen KI

The Nature of Mathematical Modeling and Probabilistic Optimization Engineering in Generative AI

October 24, 2024
Autoren: Fulu Li
cs.AI

Zusammenfassung

In diesem Paper geben wir eine eingehende Analyse der mathematischen Problemformulierungen und der probabilistischen Optimierungserkundungen für einige der Schlüsselkomponenten im Transformer-Modell [33] im Bereich der generativen KI. Wir erforschen und diskutieren einige potenzielle weitere Verbesserungen für aktuelle State-of-the-Art-Methoden für einige der Schlüsseltechnologien generativer KI-Modelle aus algorithmischer und probabilistischer Optimierungsperspektive. Insbesondere präsentieren wir eine optimale Lösung für die Teilwortcodierung (SWE) basierend auf ähnlichen Ausgangseinstellungen wie der Byte-Pair-Codierung (BPE)-Algorithmus in [9] mit ähnlichen Zielen wie der WordPiece-Ansatz in [28, 31], um die Wahrscheinlichkeit der Trainingsdaten zu maximieren. Wir präsentieren auch eine Kreuzentropie-Optimierungsmethode zur Optimierung von Hyperparametern für das Word2Vec-Modell [17]. Darüber hinaus schlagen wir eine faktorielle Kombination aus rotierender Positionscodierung (RoPE) [32] und Aufmerksamkeit mit linearen Verzerrungen (ALiBi) [23] mit einer harmonischen Reihe vor. Wir präsentieren auch eine probabilistische FlashAttention [6, 7] (PrFlashAttention)-Methode mit einer Wahrscheinlichkeitsverteilung über Blockabstände in der Matrix, um zu entscheiden, welcher Block wahrscheinlich an einer bestimmten Runde der Aufmerksamkeitsberechnung teilnehmen wird, während die untere Dreiecksform des Tensors für autoregressive Sprachmodelle beibehalten wird, indem die Tensoren umgeformt werden. Schließlich präsentieren wir eine stufenweise adaptive Quantisierung (SAQ) des Schlüssel-Wert (KV)-Caches für Multi-Query-Aufmerksamkeit (MQA) basierend auf dem in [16] vorgestellten Rahmen, um eine allmähliche Quantisierungsverschlechterung zu erreichen, während eine angemessene Modellqualität und Kosteneinsparungen erzielt werden.
English
In this paper, we give an in-depth analysis on the mathematical problem formulations and the probabilistic optimization explorations for some of the key components in Transformer model [33] in the field of generative AI. We explore and discuss some potential further enhancement for current state of the art methods for some key underlying technologies of generative AI models from algorithmic and probabilistic optimization perspective. In particular, we present an optimal solution for sub-word encoding (SWE) based on similar initial settings as that of byte-pair encoding (BPE) algorithm in [9] with similar objectives as that of WordPiece approach in [28, 31] to maximize the likelihood of the training data. We also present cross entropy optimization method to optimize hyperparameters for word2vec model [17]. In addition, we propose a factored combination of rotary positional encoding (RoPE) [32] and attention with linear biases (ALiBi) [23] with a harmonic series. We also present a probabilistic FlashAttention [6, 7] (PrFlashAttention) method with a probability distribution over block distances in the matrix to decide which block is likely to participate in a given round of attention computation while maintaining the lower triangle shape of the tensor for autoregressive language models by re-shaping the tensors. Finally, we present staircase adaptive quantization (SAQ) of key-value (KV) cache for multi-query attention (MQA) based on the framework presented in [16] to have gradual quantization degradation while achieving reasonable model quality and cost savings.

Summary

AI-Generated Summary

PDF52November 16, 2024