Modellazione generativa efficiente con token basati su Quantizzazione Vettoriale Residua
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens
December 13, 2024
Autori: Jaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho
cs.AI
Abstract
Esploriamo l'uso della Quantizzazione Vettoriale Residua (RVQ) per la generazione ad alta fedeltà nei modelli generativi quantizzati vettorialmente. Questa tecnica di quantizzazione mantiene una maggiore fedeltà dei dati impiegando token più approfonditi. Tuttavia, aumentare il numero di token nei modelli generativi porta a velocità di inferenza più lente. A questo scopo, introduciamo ResGen, un efficiente modello di diffusione discreta basato su RVQ che genera campioni ad alta fedeltà senza compromettere la velocità di campionamento. La nostra idea chiave è una previsione diretta dell'incorporamento vettoriale dei token collettivi anziché quelli individuali. Inoltre, dimostriamo che il nostro metodo proposto di mascheramento dei token e di previsione multi-token può essere formulato all'interno di un framework probabilistico ben fondato utilizzando un processo di diffusione discreta e inferenza variazionale. Confermiamo l'efficacia e la generalizzabilità del metodo proposto su due compiti impegnativi attraverso diverse modalità: generazione condizionale di immagini su ImageNet 256x256 e sintesi di testo in parlato senza supervisione. I risultati sperimentali dimostrano che ResGen supera i corrispondenti autoregressivi in entrambi i compiti, offrendo prestazioni superiori senza compromettere la velocità di campionamento. Inoltre, all'aumentare della profondità di RVQ, i nostri modelli generativi mostrano una fedeltà di generazione migliorata o velocità di campionamento più veloci rispetto ai modelli di base di dimensioni simili. La pagina del progetto è disponibile su https://resgen-genai.github.io
English
We explore the use of Residual Vector Quantization (RVQ) for high-fidelity
generation in vector-quantized generative models. This quantization technique
maintains higher data fidelity by employing more in-depth tokens. However,
increasing the token number in generative models leads to slower inference
speeds. To this end, we introduce ResGen, an efficient RVQ-based discrete
diffusion model that generates high-fidelity samples without compromising
sampling speed. Our key idea is a direct prediction of vector embedding of
collective tokens rather than individual ones. Moreover, we demonstrate that
our proposed token masking and multi-token prediction method can be formulated
within a principled probabilistic framework using a discrete diffusion process
and variational inference. We validate the efficacy and generalizability of the
proposed method on two challenging tasks across different modalities:
conditional image generation} on ImageNet 256x256 and zero-shot text-to-speech
synthesis. Experimental results demonstrate that ResGen outperforms
autoregressive counterparts in both tasks, delivering superior performance
without compromising sampling speed. Furthermore, as we scale the depth of RVQ,
our generative models exhibit enhanced generation fidelity or faster sampling
speeds compared to similarly sized baseline models. The project page can be
found at https://resgen-genai.github.ioSummary
AI-Generated Summary