Ottimizzatori Cauti: Migliorare l'Addestramento con una Sola Linea di Codice

Cautious Optimizers: Improving Training with One Line of Code

November 25, 2024
Autori: Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
cs.AI

Abstract

AdamW è stato l'ottimizzatore predefinito per il preaddestramento del transformer. Per molti anni, la nostra comunità ha cercato ottimizzatori più veloci e stabili con risultati positivi limitati. In questo lavoro, proponiamo una modifica in una sola riga in Pytorch a qualsiasi ottimizzatore basato sul momentum, che rinominiamo Ottimizzatore Cautelativo, ad esempio C-AdamW e C-Lion. Il nostro risultato teorico mostra che questa modifica preserva la funzione Hamiltoniana di Adam e non compromette la garanzia di convergenza sotto l'analisi di Lyapunov. Inoltre, la nostra intuizione teorica rivela una nuova famiglia di ottimizzatori. Tra questi, scegliamo il più semplice per esperimenti empirici, mostrando un aumento di velocità nel preaddestramento di Llama e MAE fino a 1,47 volte. Il codice è disponibile su https://github.com/kyleliang919/C-Optim
English
AdamW has been the default optimizer for transformer pretraining. For many years, our community searches for faster and more stable optimizers with only constraint positive outcomes. In this work, we propose a single-line modification in Pytorch to any momentum-based optimizer, which we rename Cautious Optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that this modification preserves Adam's Hamiltonian function and it does not break the convergence guarantee under the Lyapunov analysis. In addition, a whole new family of optimizers is revealed by our theoretical insight. Among them, we pick the simplest one for empirical experiments, showing speed-up on Llama and MAE pretraining up to 1.47times. Code is available at https://github.com/kyleliang919/C-Optim

Summary

AI-Generated Summary

PDF152November 26, 2024