CODA: Riadattamento di VAEs continui per la tokenizzazione discreta
CODA: Repurposing Continuous VAEs for Discrete Tokenization
March 22, 2025
Autori: Zeyu Liu, Zanlin Ni, Yeguo Hua, Xin Deng, Xiao Ma, Cheng Zhong, Gao Huang
cs.AI
Abstract
I tokenizzatori visivi discreti trasformano le immagini in una sequenza di token, abilitando la generazione visiva basata su token in modo simile ai modelli linguistici. Tuttavia, questo processo è intrinsecamente complesso, poiché richiede sia la compressione dei segnali visivi in una rappresentazione compatta sia la loro discretizzazione in un insieme fisso di codici. I tradizionali tokenizzatori discreti tipicamente apprendono queste due attività in modo congiunto, spesso portando a un addestramento instabile, una bassa utilizzazione del codebook e una qualità di ricostruzione limitata. In questo articolo, introduciamo CODA (COntinuous-to-Discrete Adaptation), un framework che disaccoppia la compressione dalla discretizzazione. Invece di addestrare tokenizzatori discreti da zero, CODA adatta VAEs continui preesistenti — già ottimizzati per la compressione percettiva — in tokenizzatori discreti attraverso un processo di discretizzazione accuratamente progettato. Concentrandosi principalmente sulla discretizzazione, CODA garantisce un addestramento stabile ed efficiente, mantenendo al contempo l'elevata fedeltà visiva dei VAEs continui. Empiricamente, con un budget di addestramento 6 volte inferiore rispetto al VQGAN standard, il nostro approccio raggiunge un'utilizzazione del codebook del 100% e un notevole FID di ricostruzione (rFID) di 0.43 e 1.34 per compressioni di 8 e 16 volte sul benchmark ImageNet 256×256.
English
Discrete visual tokenizers transform images into a sequence of tokens,
enabling token-based visual generation akin to language models. However, this
process is inherently challenging, as it requires both compressing visual
signals into a compact representation and discretizing them into a fixed set of
codes. Traditional discrete tokenizers typically learn the two tasks jointly,
often leading to unstable training, low codebook utilization, and limited
reconstruction quality. In this paper, we introduce
CODA(COntinuous-to-Discrete Adaptation), a
framework that decouples compression and discretization. Instead of training
discrete tokenizers from scratch, CODA adapts off-the-shelf continuous VAEs --
already optimized for perceptual compression -- into discrete tokenizers via a
carefully designed discretization process. By primarily focusing on
discretization, CODA ensures stable and efficient training while retaining the
strong visual fidelity of continuous VAEs. Empirically, with 6
times less training budget than standard VQGAN, our approach achieves a
remarkable codebook utilization of 100% and notable reconstruction FID (rFID)
of 0.43 and 1.34 for 8 times and 16 times
compression on ImageNet 256times 256 benchmark.Summary
AI-Generated Summary