Scaling Image Tokenizers with Grouped Spherical Quantization Scaling degli Tokenizer di Immagini con Quantizzazione Sferica Raggruppata
Scaling Image Tokenizers with Grouped Spherical Quantization
December 3, 2024
Autori: Jiangtao Wang, Zhen Qin, Yifan Zhang, Vincent Tao Hu, Björn Ommer, Rania Briq, Stefan Kesselheim
cs.AI
Abstract
I tokenizzatori di visione hanno guadagnato molta attenzione per la loro scalabilità e compattezza; i lavori precedenti si basano su iperparametri GAN vecchia scuola, confronti tendenziosi e mancanza di un'analisi completa dei comportamenti di scalabilità. Per affrontare tali questioni, introduciamo la Quantizzazione Sferica Raggruppata (GSQ), che presenta inizializzazione del codebook sferica e regolarizzazione della ricerca per vincolare il latente del codebook a una superficie sferica. La nostra analisi empirica delle strategie di addestramento del tokenizzatore di immagini dimostra che GSQ-GAN raggiunge una qualità di ricostruzione superiore rispetto ai metodi all'avanguardia con meno iterazioni di addestramento, fornendo una solida base per gli studi di scalabilità. Sulla base di ciò, esaminiamo sistematicamente i comportamenti di scalabilità di GSQ, in particolare nella dimensionalità latente, dimensione del codebook e rapporti di compressione, e il loro impatto sulle prestazioni del modello. Le nostre scoperte rivelano comportamenti distinti a livelli di compressione spaziale alti e bassi, sottolineando le sfide nella rappresentazione di spazi latenti ad alta dimensionalità. Mostramo che GSQ può ristrutturare latenti ad alta dimensionalità in spazi compatti a bassa dimensionalità, consentendo così una scalabilità efficiente con qualità migliorata. Di conseguenza, GSQ-GAN raggiunge un downsampling di 16 volte con un FID di ricostruzione (rFID) di 0.50.
English
Vision tokenizers have gained a lot of attraction due to their scalability
and compactness; previous works depend on old-school GAN-based hyperparameters,
biased comparisons, and a lack of comprehensive analysis of the scaling
behaviours. To tackle those issues, we introduce Grouped Spherical Quantization
(GSQ), featuring spherical codebook initialization and lookup regularization to
constrain codebook latent to a spherical surface. Our empirical analysis of
image tokenizer training strategies demonstrates that GSQ-GAN achieves superior
reconstruction quality over state-of-the-art methods with fewer training
iterations, providing a solid foundation for scaling studies. Building on this,
we systematically examine the scaling behaviours of GSQ, specifically in latent
dimensionality, codebook size, and compression ratios, and their impact on
model performance. Our findings reveal distinct behaviours at high and low
spatial compression levels, underscoring challenges in representing
high-dimensional latent spaces. We show that GSQ can restructure
high-dimensional latent into compact, low-dimensional spaces, thus enabling
efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x
down-sampling with a reconstruction FID (rFID) of 0.50.Summary
AI-Generated Summary