ChatPaper.aiChatPaper

Стабильный-SPAM: Как обучаться в 4 бита более стабильно, чем с помощью 16-битного метода оптимизации Adam.

Stable-SPAM: How to Train in 4-Bit More Stably than 16-Bit Adam

February 24, 2025
Авторы: Tianjin Huang, Haotian Hu, Zhenyu Zhang, Gaojie Jin, Xiang Li, Li Shen, Tianlong Chen, Lu Liu, Qingsong Wen, Zhangyang Wang, Shiwei Liu
cs.AI

Аннотация

Эта статья всесторонне оценивает несколько недавно предложенных оптимизаторов для тренировки с использованием 4-битной точности, выявляя, что низкая точность битов усиливает чувствительность к скоростям обучения и часто вызывает нестабильность норм градиента, что приводит к расходимости при более высоких скоростях обучения. Среди них SPAM, недавно представленный оптимизатор с функцией сброса импульса и обрезки градиента, достигает лучшей производительности на различных уровнях битов, но испытывает затруднения с стабилизацией норм градиента, требуя тщательной настройки скорости обучения. Для преодоления этих ограничений мы предлагаем Stable-SPAM, который включает улучшенные техники нормализации и обрезки градиента. В частности, Stable-SPAM (1) адаптивно обновляет порог обрезки для высоких градиентов, отслеживая их исторические максимумы; (2) нормализует весь градиентный массив на основе его статистики исторической l_2-нормы; и (3) наследует сброс импульса от SPAM для периодического сброса первого и второго моментов Adam, смягчая накопление высоких градиентов. Обширные эксперименты показывают, что Stable-SPAM эффективно стабилизирует нормы градиента при обучении с использованием 4-битной точности, обеспечивая превосходную производительность по сравнению с Adam и SPAM. Заметно, что наша модель LLaMA-1B с 4-битной точностью, обученная с использованием Stable-SPAM, превосходит модель LLaMA-1B с BF16, обученную с помощью Adam, на до 2 плутония. Более того, когда обе модели обучаются с использованием 4-битной точности, Stable-SPAM достигает той же потери, что и Adam, требуя при этом всего примерно половину шагов обучения. Код доступен по адресу https://github.com/TianjinYellow/StableSPAM.git.
English
This paper comprehensively evaluates several recently proposed optimizers for 4-bit training, revealing that low-bit precision amplifies sensitivity to learning rates and often causes unstable gradient norms, leading to divergence at higher learning rates. Among these, SPAM, a recent optimizer featuring momentum reset and spike-aware gradient clipping, achieves the best performance across various bit levels, but struggles to stabilize gradient norms, requiring careful learning rate tuning. To address these limitations, we propose Stable-SPAM, which incorporates enhanced gradient normalization and clipping techniques. In particular, Stable-SPAM (1) adaptively updates the clipping threshold for spiked gradients by tracking their historical maxima; (2) normalizes the entire gradient matrix based on its historical l_2-norm statistics; and (3) inherits momentum reset from SPAM to periodically reset the first and second moments of Adam, mitigating the accumulation of spiked gradients. Extensive experiments show that Stable-SPAM effectively stabilizes gradient norms in 4-bit LLM training, delivering superior performance compared to Adam and SPAM. Notably, our 4-bit LLaMA-1B model trained with Stable-SPAM outperforms the BF16 LLaMA-1B trained with Adam by up to 2 perplexity. Furthermore, when both models are trained in 4-bit, Stable-SPAM achieves the same loss as Adam while requiring only about half the training steps. Code is available at https://github.com/TianjinYellow/StableSPAM.git.

Summary

AI-Generated Summary

PDF162February 25, 2025