GigaTok: Scalabilità dei Tokenizzatori Visivi a 3 Miliardi di Parametri per la Generazione Autoregressiva di Immagini

Abstract

Nella generazione autoregressiva (AR) di immagini, i tokenizzatori visivi comprimono le immagini in token latenti discreti compatti, consentendo un addestramento efficiente di modelli autoregressivi downstream per la generazione visiva tramite la previsione del token successivo. Sebbene il ridimensionamento dei tokenizzatori visivi migliori la qualità della ricostruzione delle immagini, spesso degrada la qualità della generazione downstream — una sfida non adeguatamente affrontata nella letteratura esistente. Per risolvere questo problema, introduciamo GigaTok, il primo approccio a migliorare simultaneamente la ricostruzione delle immagini, la generazione e l'apprendimento delle rappresentazioni quando si ridimensionano i tokenizzatori visivi. Identifichiamo la crescente complessità dello spazio latente come il fattore chiave dietro il dilemma ricostruzione vs. generazione. Per mitigare ciò, proponiamo una regolarizzazione semantica, che allinea le caratteristiche del tokenizzatore con caratteristiche semanticamente coerenti provenienti da un encoder visivo pre-addestrato. Questo vincolo previene un'eccessiva complessità dello spazio latente durante il ridimensionamento, producendo miglioramenti consistenti sia nella ricostruzione che nella generazione autoregressiva downstream. Basandoci sulla regolarizzazione semantica, esploriamo tre pratiche chiave per il ridimensionamento dei tokenizzatori: (1) l'uso di tokenizzatori 1D per una migliore scalabilità, (2) la priorità del ridimensionamento del decoder quando si espandono sia l'encoder che il decoder, e (3) l'impiego della perdita di entropia per stabilizzare l'addestramento di tokenizzatori su scala miliardaria. Ridimensionando fino a 3 miliardi di parametri, GigaTok raggiunge prestazioni all'avanguardia nella ricostruzione, nella generazione AR downstream e nella qualità delle rappresentazioni AR downstream.

English

In autoregressive (AR) image generation, visual tokenizers compress images into compact discrete latent tokens, enabling efficient training of downstream autoregressive models for visual generation via next-token prediction. While scaling visual tokenizers improves image reconstruction quality, it often degrades downstream generation quality -- a challenge not adequately addressed in existing literature. To address this, we introduce GigaTok, the first approach to simultaneously improve image reconstruction, generation, and representation learning when scaling visual tokenizers. We identify the growing complexity of latent space as the key factor behind the reconstruction vs. generation dilemma. To mitigate this, we propose semantic regularization, which aligns tokenizer features with semantically consistent features from a pre-trained visual encoder. This constraint prevents excessive latent space complexity during scaling, yielding consistent improvements in both reconstruction and downstream autoregressive generation. Building on semantic regularization, we explore three key practices for scaling tokenizers:(1) using 1D tokenizers for better scalability, (2) prioritizing decoder scaling when expanding both encoder and decoder, and (3) employing entropy loss to stabilize training for billion-scale tokenizers. By scaling to 3 space billion parameters, GigaTok achieves state-of-the-art performance in reconstruction, downstream AR generation, and downstream AR representation quality.

GigaTok: Scalabilità dei Tokenizzatori Visivi a 3 Miliardi di Parametri per la Generazione Autoregressiva di Immagini

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Abstract

Summary

Support

Support