De aard van wiskundige modellering en probabilistische optimalisatie in generatieve AI.
The Nature of Mathematical Modeling and Probabilistic Optimization Engineering in Generative AI
October 24, 2024
Auteurs: Fulu Li
cs.AI
Samenvatting
In dit artikel geven we een diepgaande analyse van de wiskundige probleemformuleringen en de probabilistische optimalisatieverkenningen voor enkele van de belangrijkste componenten in het Transformer-model [33] op het gebied van generatieve AI. We onderzoeken en bespreken enkele mogelijke verdere verbeteringen voor de huidige state-of-the-art methoden voor enkele belangrijke onderliggende technologieën van generatieve AI-modellen vanuit een algoritmisch en probabilistisch optimalisatieperspectief. In het bijzonder presenteren we een optimale oplossing voor subwoordcodering (SWE) op basis van vergelijkbare initiële instellingen als die van het byte-pair coderings (BPE) algoritme in [9] met vergelijkbare doelstellingen als die van de WordPiece-benadering in [28, 31] om de waarschijnlijkheid van de trainingsgegevens te maximaliseren. We presenteren ook een optimalisatiemethode voor kruisentropie om hyperparameters te optimaliseren voor het word2vec-model [17]. Daarnaast stellen we een gefactoreerde combinatie voor van roterende positionele codering (RoPE) [32] en aandacht met lineaire afwijkingen (ALiBi) [23] met een harmonische reeks. We presenteren ook een probabilistische FlashAttention [6, 7] (PrFlashAttention) methode met een kansverdeling over blokafstanden in de matrix om te beslissen welk blok waarschijnlijk zal deelnemen aan een bepaalde ronde van aandachtsberekening, terwijl de lagere driehoeksvorm van de tensor wordt behouden voor autoregressieve taalmodellen door de tensors te hervormen. Tot slot presenteren we trapsgewijze adaptieve kwantisatie (SAQ) van sleutel-waarde (KV) cache voor multi-query aandacht (MQA) op basis van het raamwerk gepresenteerd in [16] om geleidelijke kwantisatie-afname te hebben terwijl redelijke modelkwaliteit en kostenbesparingen worden bereikt.
English
In this paper, we give an in-depth analysis on the mathematical problem
formulations and the probabilistic optimization explorations for some of the
key components in Transformer model [33] in the field of generative AI. We
explore and discuss some potential further enhancement for current state of the
art methods for some key underlying technologies of generative AI models from
algorithmic and probabilistic optimization perspective. In particular, we
present an optimal solution for sub-word encoding (SWE) based on similar
initial settings as that of byte-pair encoding (BPE) algorithm in [9] with
similar objectives as that of WordPiece approach in [28, 31] to maximize the
likelihood of the training data. We also present cross entropy optimization
method to optimize hyperparameters for word2vec model [17]. In addition, we
propose a factored combination of rotary positional encoding (RoPE) [32] and
attention with linear biases (ALiBi) [23] with a harmonic series. We also
present a probabilistic FlashAttention [6, 7] (PrFlashAttention) method with a
probability distribution over block distances in the matrix to decide which
block is likely to participate in a given round of attention computation while
maintaining the lower triangle shape of the tensor for autoregressive language
models by re-shaping the tensors. Finally, we present staircase adaptive
quantization (SAQ) of key-value (KV) cache for multi-query attention (MQA)
based on the framework presented in [16] to have gradual quantization
degradation while achieving reasonable model quality and cost savings.Summary
AI-Generated Summary