FlatQuant: LLM 양자화에 있어서 평탄함이 중요합니다.

FlatQuant: Flatness Matters for LLM Quantization

October 12, 2024
저자: Yuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao
cs.AI

초록

최근에는 양자화가 대형 언어 모델(Large Language Models, LLMs)의 압축 및 가속화에 널리 사용되고 있습니다. LLMs의 이상치로 인해 가중치와 활성화를 평평하게 만들어 양자화 오차를 최소화하는 것이 중요합니다. 이전 연구에서는 채널별 스케일링과 Hadamard 변환과 같은 다양한 전 양자화 변환을 탐구하여 이상치를 억제했습니다. 그러나 우리는 이러한 변환된 가중치와 활성화가 여전히 가파르고 넓게 퍼져있을 수 있다는 것을 관찰했습니다. 본 논문에서는 가중치와 활성화의 평평함을 향상시키기 위한 새로운 사후 훈련 양자화 접근 방식인 FlatQuant (빠르고 학습 가능한 아핀 변환)을 제안합니다. 저희 방법은 각 선형 계층에 맞춤형 최적의 아핀 변환을 식별하고, 가벼운 목적에 맞게 보정된 시간 내에 측정합니다. 런타임 오버헤드를 줄이기 위해 변환 행렬에 크로네커 분해를 적용하고, FlatQuant의 모든 작업을 단일 커널로 통합합니다. 광범위한 실험 결과는 FlatQuant가 새로운 최고 수준의 양자화 기준을 설정한다는 것을 보여줍니다. 예를 들어, LLaMA-3-70B 모델의 W4A4 양자화에 대해 SpinQuant보다 7.5% 우수한 정확도 감소를 달성하여 1% 미만의 정확도 감소를 달성합니다. 추론 대기 시간에서는 FlatQuant가 QuaRot의 0.26배에서 단지 0.07배로 줄어든 전 양자화 변환에 의한 속도 저하를 줄여, 각각 2.3배의 속도 향상을 가져오는 프리필과 1.7배의 속도 향상을 가져오는 디코딩을 제공합니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/ruikangliu/FlatQuant.
English
Recently, quantization has been widely used for the compression and acceleration of large language models~(LLMs). Due to the outliers in LLMs, it is crucial to flatten weights and activations to minimize quantization error with the equally spaced quantization points. Prior research explores various pre-quantization transformations to suppress outliers, such as per-channel scaling and Hadamard transformation. However, we observe that these transformed weights and activations can still remain steep and outspread. In this paper, we propose FlatQuant (Fast and Learnable Affine Transformation), a new post-training quantization approach to enhance flatness of weights and activations. Our approach identifies optimal affine transformations tailored to each linear layer, calibrated in hours via a lightweight objective. To reduce runtime overhead, we apply Kronecker decomposition to the transformation matrices, and fuse all operations in FlatQuant into a single kernel. Extensive experiments show that FlatQuant sets up a new state-of-the-art quantization benchmark. For instance, it achieves less than 1% accuracy drop for W4A4 quantization on the LLaMA-3-70B model, surpassing SpinQuant by 7.5%. For inference latency, FlatQuant reduces the slowdown induced by pre-quantization transformation from 0.26x of QuaRot to merely 0.07x, bringing up to 2.3x speedup for prefill and 1.7x speedup for decoding, respectively. Code is available at: https://github.com/ruikangliu/FlatQuant.

Summary

AI-Generated Summary

PDF122November 16, 2024