CODA: Riadattamento di VAEs continui per la tokenizzazione discreta

Abstract

I tokenizzatori visivi discreti trasformano le immagini in una sequenza di token, abilitando la generazione visiva basata su token in modo simile ai modelli linguistici. Tuttavia, questo processo è intrinsecamente complesso, poiché richiede sia la compressione dei segnali visivi in una rappresentazione compatta sia la loro discretizzazione in un insieme fisso di codici. I tradizionali tokenizzatori discreti tipicamente apprendono queste due attività in modo congiunto, spesso portando a un addestramento instabile, una bassa utilizzazione del codebook e una qualità di ricostruzione limitata. In questo articolo, introduciamo CODA (COntinuous-to-Discrete Adaptation), un framework che disaccoppia la compressione dalla discretizzazione. Invece di addestrare tokenizzatori discreti da zero, CODA adatta VAEs continui preesistenti — già ottimizzati per la compressione percettiva — in tokenizzatori discreti attraverso un processo di discretizzazione accuratamente progettato. Concentrandosi principalmente sulla discretizzazione, CODA garantisce un addestramento stabile ed efficiente, mantenendo al contempo l'elevata fedeltà visiva dei VAEs continui. Empiricamente, con un budget di addestramento 6 volte inferiore rispetto al VQGAN standard, il nostro approccio raggiunge un'utilizzazione del codebook del 100% e un notevole FID di ricostruzione (rFID) di 0.43 e 1.34 per compressioni di 8 e 16 volte sul benchmark ImageNet 256×256.

English

Discrete visual tokenizers transform images into a sequence of tokens, enabling token-based visual generation akin to language models. However, this process is inherently challenging, as it requires both compressing visual signals into a compact representation and discretizing them into a fixed set of codes. Traditional discrete tokenizers typically learn the two tasks jointly, often leading to unstable training, low codebook utilization, and limited reconstruction quality. In this paper, we introduce CODA(COntinuous-to-Discrete Adaptation), a framework that decouples compression and discretization. Instead of training discrete tokenizers from scratch, CODA adapts off-the-shelf continuous VAEs -- already optimized for perceptual compression -- into discrete tokenizers via a carefully designed discretization process. By primarily focusing on discretization, CODA ensures stable and efficient training while retaining the strong visual fidelity of continuous VAEs. Empirically, with 6 times less training budget than standard VQGAN, our approach achieves a remarkable codebook utilization of 100% and notable reconstruction FID (rFID) of 0.43 and 1.34 for 8 times and 16 times compression on ImageNet 256times 256 benchmark.

CODA: Riadattamento di VAEs continui per la tokenizzazione discreta

CODA: Repurposing Continuous VAEs for Discrete Tokenization

Abstract

Summary

Support

Support