Tokenizzazione visuale fattorizzata e generazione

Abstract

I tokenizzatori visivi sono fondamentali per la generazione di immagini. Essi convertono i dati visivi in token discreti, consentendo ai modelli basati su trasformatori di eccellere nella generazione di immagini. Nonostante il loro successo, i tokenizzatori basati su VQ come VQGAN affrontano significative limitazioni dovute alle dimensioni limitate del vocabolario. Espandere semplicemente il codebook spesso porta a instabilità nell'addestramento e a una diminuzione delle prestazioni, rendendo la scalabilità una sfida critica. In questo lavoro, introduciamo la Quantizzazione Fattorizzata (FQ), un approccio innovativo che rivitalizza i tokenizzatori basati su VQ decomponendo un ampio codebook in più sub-codebook indipendenti. Questa fattorizzazione riduce la complessità della ricerca dei grandi codebook, consentendo una tokenizzazione visiva più efficiente e scalabile. Per garantire che ciascun sub-codebook catturi informazioni distinte e complementari, proponiamo una regolarizzazione della disentanglement che riduce esplicitamente la ridondanza, promuovendo la diversità tra i sub-codebook. Inoltre, integriamo l'apprendimento della rappresentazione nel processo di addestramento, sfruttando modelli di visione preaddestrati come CLIP e DINO per infondere ricchezza semantica nelle rappresentazioni apprese. Questo design garantisce che il nostro tokenizer catturi diversi livelli semantici, portando a rappresentazioni più espressive e disentangolate. Gli esperimenti mostrano che il modello proposto FQGAN migliora sostanzialmente la qualità della ricostruzione dei tokenizzatori visivi, raggiungendo prestazioni all'avanguardia. Dimostriamo inoltre che questo tokenizer può essere efficacemente adattato alla generazione di immagini auto-regressiva. https://showlab.github.io/FQGAN

English

Visual tokenizers are fundamental to image generation. They convert visual data into discrete tokens, enabling transformer-based models to excel at image generation. Despite their success, VQ-based tokenizers like VQGAN face significant limitations due to constrained vocabulary sizes. Simply expanding the codebook often leads to training instability and diminishing performance gains, making scalability a critical challenge. In this work, we introduce Factorized Quantization (FQ), a novel approach that revitalizes VQ-based tokenizers by decomposing a large codebook into multiple independent sub-codebooks. This factorization reduces the lookup complexity of large codebooks, enabling more efficient and scalable visual tokenization. To ensure each sub-codebook captures distinct and complementary information, we propose a disentanglement regularization that explicitly reduces redundancy, promoting diversity across the sub-codebooks. Furthermore, we integrate representation learning into the training process, leveraging pretrained vision models like CLIP and DINO to infuse semantic richness into the learned representations. This design ensures our tokenizer captures diverse semantic levels, leading to more expressive and disentangled representations. Experiments show that the proposed FQGAN model substantially improves the reconstruction quality of visual tokenizers, achieving state-of-the-art performance. We further demonstrate that this tokenizer can be effectively adapted into auto-regressive image generation. https://showlab.github.io/FQGAN

Tokenizzazione visuale fattorizzata e generazione

Factorized Visual Tokenization and Generation

Abstract

Support