Scaling Image Tokenizers with Grouped Spherical Quantization Scaling degli Tokenizer di Immagini con Quantizzazione Sferica Raggruppata

Abstract

I tokenizzatori di visione hanno guadagnato molta attenzione per la loro scalabilità e compattezza; i lavori precedenti si basano su iperparametri GAN vecchia scuola, confronti tendenziosi e mancanza di un'analisi completa dei comportamenti di scalabilità. Per affrontare tali questioni, introduciamo la Quantizzazione Sferica Raggruppata (GSQ), che presenta inizializzazione del codebook sferica e regolarizzazione della ricerca per vincolare il latente del codebook a una superficie sferica. La nostra analisi empirica delle strategie di addestramento del tokenizzatore di immagini dimostra che GSQ-GAN raggiunge una qualità di ricostruzione superiore rispetto ai metodi all'avanguardia con meno iterazioni di addestramento, fornendo una solida base per gli studi di scalabilità. Sulla base di ciò, esaminiamo sistematicamente i comportamenti di scalabilità di GSQ, in particolare nella dimensionalità latente, dimensione del codebook e rapporti di compressione, e il loro impatto sulle prestazioni del modello. Le nostre scoperte rivelano comportamenti distinti a livelli di compressione spaziale alti e bassi, sottolineando le sfide nella rappresentazione di spazi latenti ad alta dimensionalità. Mostramo che GSQ può ristrutturare latenti ad alta dimensionalità in spazi compatti a bassa dimensionalità, consentendo così una scalabilità efficiente con qualità migliorata. Di conseguenza, GSQ-GAN raggiunge un downsampling di 16 volte con un FID di ricostruzione (rFID) di 0.50.

English

Vision tokenizers have gained a lot of attraction due to their scalability and compactness; previous works depend on old-school GAN-based hyperparameters, biased comparisons, and a lack of comprehensive analysis of the scaling behaviours. To tackle those issues, we introduce Grouped Spherical Quantization (GSQ), featuring spherical codebook initialization and lookup regularization to constrain codebook latent to a spherical surface. Our empirical analysis of image tokenizer training strategies demonstrates that GSQ-GAN achieves superior reconstruction quality over state-of-the-art methods with fewer training iterations, providing a solid foundation for scaling studies. Building on this, we systematically examine the scaling behaviours of GSQ, specifically in latent dimensionality, codebook size, and compression ratios, and their impact on model performance. Our findings reveal distinct behaviours at high and low spatial compression levels, underscoring challenges in representing high-dimensional latent spaces. We show that GSQ can restructure high-dimensional latent into compact, low-dimensional spaces, thus enabling efficient scaling with improved quality. As a result, GSQ-GAN achieves a 16x down-sampling with a reconstruction FID (rFID) of 0.50.