수학적 모델링과 확률적 최적화의 본질 생성적 AI에서의 공학
The Nature of Mathematical Modeling and Probabilistic Optimization Engineering in Generative AI
October 24, 2024
저자: Fulu Li
cs.AI
초록
본 논문에서는 생성적 AI 분야에서 Transformer 모델 [33]의 일부 핵심 구성 요소에 대한 수학적 문제 정의와 확률적 최적화 탐구에 대해 심층적인 분석을 제공합니다. 우리는 알고리즘적 및 확률적 최적화 관점에서 생성적 AI 모델의 일부 핵심 기술에 대한 현재의 최첨단 방법들을 위한 잠재적인 추가 향상을 탐구하고 논의합니다. 특히, 우리는 학습 데이터의 가능성을 극대화하기 위해 [9]의 바이트-페어 인코딩 (BPE) 알고리즘의 초기 설정과 유사한 초기 설정을 기반으로 서브워드 인코딩 (SWE)에 대한 최적 솔루션을 제시하며, [28, 31]의 WordPiece 접근 방식과 유사한 목표를 가지고 있습니다. 또한, word2vec 모델 [17]의 하이퍼파라미터를 최적화하기 위한 교차 엔트로피 최적화 방법을 제시합니다. 더불어, 로타리 위치 인코딩 (RoPE) [32]과 선형 편향을 가진 어텐션 (ALiBi) [23]의 요소 조합을 조화 급수로 제안합니다. 또한, 텐서의 하삼각 모양을 유지하면서 자기 회귀 언어 모델을 위해 텐서를 재구성함으로써 어떤 블록이 특정 라운드의 어텐션 계산에 참여할 가능성이 있는지 결정하기 위한 확률적 FlashAttention [6, 7] (PrFlashAttention) 방법을 제시합니다. 마지막으로, [16]에서 제시된 프레임워크를 기반으로 한 다중 쿼리 어텐션 (MQA)을 위한 키-값 (KV) 캐시의 계단식 적응 양자화 (SAQ)를 제시하여 합리적인 모델 품질과 비용 절감을 달성하면서 점진적 양자화 저하를 갖습니다.
English
In this paper, we give an in-depth analysis on the mathematical problem
formulations and the probabilistic optimization explorations for some of the
key components in Transformer model [33] in the field of generative AI. We
explore and discuss some potential further enhancement for current state of the
art methods for some key underlying technologies of generative AI models from
algorithmic and probabilistic optimization perspective. In particular, we
present an optimal solution for sub-word encoding (SWE) based on similar
initial settings as that of byte-pair encoding (BPE) algorithm in [9] with
similar objectives as that of WordPiece approach in [28, 31] to maximize the
likelihood of the training data. We also present cross entropy optimization
method to optimize hyperparameters for word2vec model [17]. In addition, we
propose a factored combination of rotary positional encoding (RoPE) [32] and
attention with linear biases (ALiBi) [23] with a harmonic series. We also
present a probabilistic FlashAttention [6, 7] (PrFlashAttention) method with a
probability distribution over block distances in the matrix to decide which
block is likely to participate in a given round of attention computation while
maintaining the lower triangle shape of the tensor for autoregressive language
models by re-shaping the tensors. Finally, we present staircase adaptive
quantization (SAQ) of key-value (KV) cache for multi-query attention (MQA)
based on the framework presented in [16] to have gradual quantization
degradation while achieving reasonable model quality and cost savings.Summary
AI-Generated Summary