FLUX a 1,58 bit
1.58-bit FLUX
December 24, 2024
Autori: Chenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Abstract
Presentiamo 1.58-bit FLUX, il primo approccio di successo per quantizzare il modello di generazione di testo-immagine all'avanguardia, FLUX.1-dev, utilizzando pesi da 1.58-bit (cioè valori in {-1, 0, +1}) mantenendo al contempo prestazioni comparabili nella generazione di immagini 1024 x 1024. In particolare, il nostro metodo di quantizzazione opera senza accesso ai dati delle immagini, basandosi esclusivamente sull'auto-supervisione del modello FLUX.1-dev. Inoltre, sviluppiamo un kernel personalizzato ottimizzato per operazioni a 1.58-bit, ottenendo una riduzione del 7.7x nello storage del modello, una riduzione del 5.1x nella memoria di inferenza e un miglioramento della latenza di inferenza. Valutazioni approfondite sui benchmark GenEval e T2I Compbench dimostrano l'efficacia di 1.58-bit FLUX nel mantenere la qualità della generazione migliorando significativamente l'efficienza computazionale.
English
We present 1.58-bit FLUX, the first successful approach to quantizing the
state-of-the-art text-to-image generation model, FLUX.1-dev, using 1.58-bit
weights (i.e., values in {-1, 0, +1}) while maintaining comparable performance
for generating 1024 x 1024 images. Notably, our quantization method operates
without access to image data, relying solely on self-supervision from the
FLUX.1-dev model. Additionally, we develop a custom kernel optimized for
1.58-bit operations, achieving a 7.7x reduction in model storage, a 5.1x
reduction in inference memory, and improved inference latency. Extensive
evaluations on the GenEval and T2I Compbench benchmarks demonstrate the
effectiveness of 1.58-bit FLUX in maintaining generation quality while
significantly enhancing computational efficiency.Summary
AI-Generated Summary