Идентификация чувствительных весов через интеграл постквантования
Identifying Sensitive Weights via Post-quantization Integral
February 28, 2025
Авторы: Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen
cs.AI
Аннотация
Обслуживание больших языковых моделей (LLM) является дорогостоящим. Однако посттренировочная квантование весов может решить эту проблему, сжимая их размеры для ограниченной памяти и экономя пропускную способность для ускорения. Поскольку не все размерности весов одинаково важны, такие методы обычно полагаются на метрику чувствительности, которая указывает на поэлементное влияние весов на функцию потерь и используется для предварительной обработки исходных весов для лучшего квантования. В данной работе мы проводим эмпирическое исследование точности метрики чувствительности и обнаруживаем, что существующие метрики, основанные на градиенте и гессиане, очень неточны: они недооценивают влияние квантования на функцию потерь на порядки величины, в основном из-за малого радиуса сходимости локальной аппроксимации второго порядка, то есть градиента и гессиана в формуле Тейлора. Для решения этой проблемы мы предлагаем Post-quantization Integral (PQI), точную метрику для оценки апостериорной чувствительности в детализированной манере. Чтобы использовать эту точную метрику, мы также предлагаем ReQuant, простую, но мощную структуру, которая в основном состоит из двух компонентов Dense-and-Sparse detach: самоадаптивного выбора выбросов и пошагового отделения значимых весов. Результаты показывают, что ReQuant улучшает современные методы посттренировочного квантования, с заметным улучшением на 2.66 перплексии для Llama 3.2 1B с QTIP.
English
Serving Large Language Models (LLMs) is costly. However, post-training weight
quantization can address this problem by both compressing their sizes for
limited memory and saving bandwidth for acceleration. As not all weight
dimensions are equally important, those methods typically rely on a sensitivity
metric, which indicates the element-wise influence of weights on loss function
and is used to preprocess original weights for better quantization. In this
work, we conduct an empirical study on the accuracy of the sensitivity metric,
and find that existing gradient and Hessian based metrics are very inaccurate:
they underestimate quantization's impact on the loss function by orders of
magnitude, mainly due to the small convergence radius of local 2nd order
approximation, \ie, gradient and Hessian term in Taylor's formula. To tackle
this problem, we propose Post-quantization Integral (PQI), an accurate metric
to estimate posterior sensitivity in a fine-grained manner. To leverage this
accurate metric, we further propose ReQuant, a simple yet powerful framework
that mainly consists of two Dense-and-Sparse detach components: self-adaptive
outlier selection and step-wise significant weights detach. Results show that
ReQuant boosts state-of-the-art post-training quantization methods, with a
pronounced improvement of 2.66 perplexity gain on Llama 3.2 1B with QTIP.Summary
AI-Generated Summary