NeuZip: Speichereffizientes Training und Inferenz mit dynamischer Kompression von neuronalen Netzwerken
NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks
October 28, 2024
Autoren: Yongchang Hao, Yanshuai Cao, Lili Mou
cs.AI
Zusammenfassung
Die Leistung von neuronalen Netzwerken verbessert sich, wenn mehr Parameter verwendet werden. Die Modellgrößen sind jedoch durch den verfügbaren Speicher auf dem Gerät während des Trainings und der Inferenz begrenzt. Obwohl Techniken wie Quantisierung die Einschränkung lindern können, leiden sie unter Leistungsverschlechterung. In dieser Arbeit stellen wir NeuZip vor, ein neues Gewichtskomprimierungsschema, das auf der Entropie von Gleitkommazahlen in neuronalen Netzwerken basiert. Mit NeuZip sind wir in der Lage, eine speichereffizientes Training und Inferenz zu erreichen, ohne die Leistung zu beeinträchtigen. Bemerkenswert ist, dass wir den Speicherbedarf für das Training eines Llama-3 8B-Modells von 31 GB auf weniger als 16 GB signifikant reduzieren, während die Trainingsdynamik vollständig unverändert bleibt. Bei der Inferenz kann unsere Methode den Speicherverbrauch um mehr als die Hälfte reduzieren, während die Leistung nahezu verlustfrei erhalten bleibt. Unser Code ist öffentlich verfügbar.
English
The performance of neural networks improves when more parameters are used.
However, the model sizes are constrained by the available on-device memory
during training and inference. Although applying techniques like quantization
can alleviate the constraint, they suffer from performance degradation. In this
work, we introduce NeuZip, a new weight compression scheme based on the entropy
of floating-point numbers in neural networks. With NeuZip, we are able to
achieve memory-efficient training and inference without sacrificing
performance. Notably, we significantly reduce the memory footprint of training
a Llama-3 8B model from 31GB to less than 16GB, while keeping the training
dynamics fully unchanged. In inference, our method can reduce memory usage by
more than half while maintaining near-lossless performance. Our code is
publicly available.Summary
AI-Generated Summary