NeuZip: Addestramento ed Inferenza con Compressione Dinamica per Reti Neurali con Efficienza di Memoria
NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks
October 28, 2024
Autori: Yongchang Hao, Yanshuai Cao, Lili Mou
cs.AI
Abstract
Le prestazioni delle reti neurali migliorano quando vengono utilizzati più parametri. Tuttavia, le dimensioni dei modelli sono limitate dalla memoria disponibile sul dispositivo durante l'addestramento e l'inferenza. Anche se l'applicazione di tecniche come la quantizzazione può alleviare il vincolo, queste soffrono di degrado delle prestazioni. In questo lavoro, presentiamo NeuZip, un nuovo schema di compressione dei pesi basato sull'entropia dei numeri in virgola mobile nelle reti neurali. Con NeuZip, siamo in grado di ottenere un addestramento e un'inferenza efficienti in termini di memoria senza sacrificare le prestazioni. In particolare, riduciamo significativamente l'impronta di memoria per l'addestramento di un modello Llama-3 8B da 31GB a meno di 16GB, mantenendo completamente invariata la dinamica di addestramento. Nell'inferenza, il nostro metodo può ridurre l'utilizzo della memoria di più della metà mantenendo prestazioni quasi prive di perdite. Il nostro codice è disponibile pubblicamente.
English
The performance of neural networks improves when more parameters are used.
However, the model sizes are constrained by the available on-device memory
during training and inference. Although applying techniques like quantization
can alleviate the constraint, they suffer from performance degradation. In this
work, we introduce NeuZip, a new weight compression scheme based on the entropy
of floating-point numbers in neural networks. With NeuZip, we are able to
achieve memory-efficient training and inference without sacrificing
performance. Notably, we significantly reduce the memory footprint of training
a Llama-3 8B model from 31GB to less than 16GB, while keeping the training
dynamics fully unchanged. In inference, our method can reduce memory usage by
more than half while maintaining near-lossless performance. Our code is
publicly available.Summary
AI-Generated Summary