La Natura della Modellazione Matematica e dell'Ottimizzazione Probabilistica nell'Ingegneria dell'IA Generativa
The Nature of Mathematical Modeling and Probabilistic Optimization Engineering in Generative AI
October 24, 2024
Autori: Fulu Li
cs.AI
Abstract
In questo articolo, forniamo un'analisi approfondita sulle formulazioni dei problemi matematici e le esplorazioni di ottimizzazione probabilistica per alcuni dei componenti chiave nel modello Transformer [33] nel campo dell'IA generativa. Esploriamo e discutiamo alcuni potenziali miglioramenti per i metodi attuali all'avanguardia per alcune tecnologie sottostanti fondamentali dei modelli di IA generativa dal punto di vista dell'algoritmo e dell'ottimizzazione probabilistica. In particolare, presentiamo una soluzione ottimale per la codifica a sotto-parola (SWE) basata su impostazioni iniziali simili a quelle dell'algoritmo di codifica a coppie di byte (BPE) in [9] con obiettivi simili a quelli dell'approccio WordPiece in [28, 31] per massimizzare la verosimiglianza dei dati di addestramento. Presentiamo anche un metodo di ottimizzazione dell'entropia incrociata per ottimizzare gli iperparametri per il modello word2vec [17]. Inoltre, proponiamo una combinazione fattorizzata della codifica posizionale rotativa (RoPE) [32] e dell'attenzione con bias lineari (ALiBi) [23] con una serie armonica. Presentiamo anche un metodo di FlashAttention probabilistico [6, 7] (PrFlashAttention) con una distribuzione di probabilità sui distacchi dei blocchi nella matrice per decidere quali blocchi sono probabili di partecipare a un dato round di calcolo dell'attenzione mantenendo la forma del triangolo inferiore del tensore per i modelli di linguaggio autoregressivi tramite il ridisegno dei tensori. Infine, presentiamo la quantizzazione adattiva a gradini (SAQ) della cache chiave-valore (KV) per l'attenzione multi-query (MQA) basata sul framework presentato in [16] per avere un degrado graduale della quantizzazione ottenendo nel contempo una qualità del modello ragionevole e risparmi sui costi.
English
In this paper, we give an in-depth analysis on the mathematical problem
formulations and the probabilistic optimization explorations for some of the
key components in Transformer model [33] in the field of generative AI. We
explore and discuss some potential further enhancement for current state of the
art methods for some key underlying technologies of generative AI models from
algorithmic and probabilistic optimization perspective. In particular, we
present an optimal solution for sub-word encoding (SWE) based on similar
initial settings as that of byte-pair encoding (BPE) algorithm in [9] with
similar objectives as that of WordPiece approach in [28, 31] to maximize the
likelihood of the training data. We also present cross entropy optimization
method to optimize hyperparameters for word2vec model [17]. In addition, we
propose a factored combination of rotary positional encoding (RoPE) [32] and
attention with linear biases (ALiBi) [23] with a harmonic series. We also
present a probabilistic FlashAttention [6, 7] (PrFlashAttention) method with a
probability distribution over block distances in the matrix to decide which
block is likely to participate in a given round of attention computation while
maintaining the lower triangle shape of the tensor for autoregressive language
models by re-shaping the tensors. Finally, we present staircase adaptive
quantization (SAQ) of key-value (KV) cache for multi-query attention (MQA)
based on the framework presented in [16] to have gradual quantization
degradation while achieving reasonable model quality and cost savings.Summary
AI-Generated Summary