NeuZip: Speichereffizientes Training und Inferenz mit dynamischer Kompression von neuronalen Netzwerken

Zusammenfassung

Die Leistung von neuronalen Netzwerken verbessert sich, wenn mehr Parameter verwendet werden. Die Modellgrößen sind jedoch durch den verfügbaren Speicher auf dem Gerät während des Trainings und der Inferenz begrenzt. Obwohl Techniken wie Quantisierung die Einschränkung lindern können, leiden sie unter Leistungsverschlechterung. In dieser Arbeit stellen wir NeuZip vor, ein neues Gewichtskomprimierungsschema, das auf der Entropie von Gleitkommazahlen in neuronalen Netzwerken basiert. Mit NeuZip sind wir in der Lage, eine speichereffizientes Training und Inferenz zu erreichen, ohne die Leistung zu beeinträchtigen. Bemerkenswert ist, dass wir den Speicherbedarf für das Training eines Llama-3 8B-Modells von 31 GB auf weniger als 16 GB signifikant reduzieren, während die Trainingsdynamik vollständig unverändert bleibt. Bei der Inferenz kann unsere Methode den Speicherverbrauch um mehr als die Hälfte reduzieren, während die Leistung nahezu verlustfrei erhalten bleibt. Unser Code ist öffentlich verfügbar.

English

The performance of neural networks improves when more parameters are used. However, the model sizes are constrained by the available on-device memory during training and inference. Although applying techniques like quantization can alleviate the constraint, they suffer from performance degradation. In this work, we introduce NeuZip, a new weight compression scheme based on the entropy of floating-point numbers in neural networks. With NeuZip, we are able to achieve memory-efficient training and inference without sacrificing performance. Notably, we significantly reduce the memory footprint of training a Llama-3 8B model from 31GB to less than 16GB, while keeping the training dynamics fully unchanged. In inference, our method can reduce memory usage by more than half while maintaining near-lossless performance. Our code is publicly available.

NeuZip: Speichereffizientes Training und Inferenz mit dynamischer Kompression von neuronalen Netzwerken

NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks

Zusammenfassung

Support