Tokenizzazione visuale fattorizzata e generazione
Factorized Visual Tokenization and Generation
November 25, 2024
Autori: Zechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou
cs.AI
Abstract
I tokenizzatori visivi sono fondamentali per la generazione di immagini. Essi convertono i dati visivi in token discreti, consentendo ai modelli basati su trasformatori di eccellere nella generazione di immagini. Nonostante il loro successo, i tokenizzatori basati su VQ come VQGAN affrontano significative limitazioni dovute alle dimensioni limitate del vocabolario. Espandere semplicemente il codebook spesso porta a instabilità nell'addestramento e a una diminuzione delle prestazioni, rendendo la scalabilità una sfida critica. In questo lavoro, introduciamo la Quantizzazione Fattorizzata (FQ), un approccio innovativo che rivitalizza i tokenizzatori basati su VQ decomponendo un ampio codebook in più sub-codebook indipendenti. Questa fattorizzazione riduce la complessità della ricerca dei grandi codebook, consentendo una tokenizzazione visiva più efficiente e scalabile. Per garantire che ciascun sub-codebook catturi informazioni distinte e complementari, proponiamo una regolarizzazione della disentanglement che riduce esplicitamente la ridondanza, promuovendo la diversità tra i sub-codebook. Inoltre, integriamo l'apprendimento della rappresentazione nel processo di addestramento, sfruttando modelli di visione preaddestrati come CLIP e DINO per infondere ricchezza semantica nelle rappresentazioni apprese. Questo design garantisce che il nostro tokenizer catturi diversi livelli semantici, portando a rappresentazioni più espressive e disentangolate. Gli esperimenti mostrano che il modello proposto FQGAN migliora sostanzialmente la qualità della ricostruzione dei tokenizzatori visivi, raggiungendo prestazioni all'avanguardia. Dimostriamo inoltre che questo tokenizer può essere efficacemente adattato alla generazione di immagini auto-regressiva. https://showlab.github.io/FQGAN
English
Visual tokenizers are fundamental to image generation. They convert visual
data into discrete tokens, enabling transformer-based models to excel at image
generation. Despite their success, VQ-based tokenizers like VQGAN face
significant limitations due to constrained vocabulary sizes. Simply expanding
the codebook often leads to training instability and diminishing performance
gains, making scalability a critical challenge. In this work, we introduce
Factorized Quantization (FQ), a novel approach that revitalizes VQ-based
tokenizers by decomposing a large codebook into multiple independent
sub-codebooks. This factorization reduces the lookup complexity of large
codebooks, enabling more efficient and scalable visual tokenization. To ensure
each sub-codebook captures distinct and complementary information, we propose a
disentanglement regularization that explicitly reduces redundancy, promoting
diversity across the sub-codebooks. Furthermore, we integrate representation
learning into the training process, leveraging pretrained vision models like
CLIP and DINO to infuse semantic richness into the learned representations.
This design ensures our tokenizer captures diverse semantic levels, leading to
more expressive and disentangled representations. Experiments show that the
proposed FQGAN model substantially improves the reconstruction quality of
visual tokenizers, achieving state-of-the-art performance. We further
demonstrate that this tokenizer can be effectively adapted into auto-regressive
image generation. https://showlab.github.io/FQGANSummary
AI-Generated Summary