GigaTok: Scalabilità dei Tokenizzatori Visivi a 3 Miliardi di Parametri per la Generazione Autoregressiva di Immagini
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation
April 11, 2025
Autori: Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu
cs.AI
Abstract
Nella generazione autoregressiva (AR) di immagini, i tokenizzatori visivi comprimono le immagini in token latenti discreti compatti, consentendo un addestramento efficiente di modelli autoregressivi downstream per la generazione visiva tramite la previsione del token successivo. Sebbene il ridimensionamento dei tokenizzatori visivi migliori la qualità della ricostruzione delle immagini, spesso degrada la qualità della generazione downstream — una sfida non adeguatamente affrontata nella letteratura esistente. Per risolvere questo problema, introduciamo GigaTok, il primo approccio a migliorare simultaneamente la ricostruzione delle immagini, la generazione e l'apprendimento delle rappresentazioni quando si ridimensionano i tokenizzatori visivi. Identifichiamo la crescente complessità dello spazio latente come il fattore chiave dietro il dilemma ricostruzione vs. generazione. Per mitigare ciò, proponiamo una regolarizzazione semantica, che allinea le caratteristiche del tokenizzatore con caratteristiche semanticamente coerenti provenienti da un encoder visivo pre-addestrato. Questo vincolo previene un'eccessiva complessità dello spazio latente durante il ridimensionamento, producendo miglioramenti consistenti sia nella ricostruzione che nella generazione autoregressiva downstream. Basandoci sulla regolarizzazione semantica, esploriamo tre pratiche chiave per il ridimensionamento dei tokenizzatori: (1) l'uso di tokenizzatori 1D per una migliore scalabilità, (2) la priorità del ridimensionamento del decoder quando si espandono sia l'encoder che il decoder, e (3) l'impiego della perdita di entropia per stabilizzare l'addestramento di tokenizzatori su scala miliardaria. Ridimensionando fino a 3 miliardi di parametri, GigaTok raggiunge prestazioni all'avanguardia nella ricostruzione, nella generazione AR downstream e nella qualità delle rappresentazioni AR downstream.
English
In autoregressive (AR) image generation, visual tokenizers compress images
into compact discrete latent tokens, enabling efficient training of downstream
autoregressive models for visual generation via next-token prediction. While
scaling visual tokenizers improves image reconstruction quality, it often
degrades downstream generation quality -- a challenge not adequately addressed
in existing literature. To address this, we introduce GigaTok, the first
approach to simultaneously improve image reconstruction, generation, and
representation learning when scaling visual tokenizers. We identify the growing
complexity of latent space as the key factor behind the reconstruction vs.
generation dilemma. To mitigate this, we propose semantic regularization, which
aligns tokenizer features with semantically consistent features from a
pre-trained visual encoder. This constraint prevents excessive latent space
complexity during scaling, yielding consistent improvements in both
reconstruction and downstream autoregressive generation. Building on semantic
regularization, we explore three key practices for scaling tokenizers:(1) using
1D tokenizers for better scalability, (2) prioritizing decoder scaling when
expanding both encoder and decoder, and (3) employing entropy loss to stabilize
training for billion-scale tokenizers. By scaling to 3 space billion
parameters, GigaTok achieves state-of-the-art performance in reconstruction,
downstream AR generation, and downstream AR representation quality.Summary
AI-Generated Summary