Decodifica Speculativa Continua per la Generazione di Immagini Autoregressive
Continuous Speculative Decoding for Autoregressive Image Generation
November 18, 2024
Autori: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang
cs.AI
Abstract
I modelli di generazione di immagini autoregressivi a valori continui (AR) hanno dimostrato una notevole superiorità rispetto ai loro corrispettivi a token discreti, mostrando una considerevole qualità di ricostruzione e una maggiore fedeltà nella generazione. Tuttavia, le esigenze computazionali del framework autoregressivo comportano un significativo overhead di inferenza. Sebbene la decodifica speculativa si sia dimostrata efficace nell'accelerare i Grandi Modelli Linguistici (LLM), la loro adattamento ai modelli autoregressivi visivi a valori continui rimane inesplorato. Questo lavoro generalizza l'algoritmo di decodifica speculativa dai token discreti allo spazio continuo. Analizzando le proprietà intrinseche della distribuzione di output, stabiliamo un criterio di accettazione personalizzato per le distribuzioni di diffusione prevalenti in tali modelli. Per superare l'incoerenza che si è verificata nelle distribuzioni di output della decodifica speculativa, introduciamo metodi di allineamento della traiettoria di denoising e di pre-riempimento dei token. Inoltre, identifichiamo la distribuzione difficile da campionare nella fase di rifiuto. Per mitigare questo problema, proponiamo un meticoloso metodo di campionamento di accettazione-rifiuto con un adeguato limite superiore, evitando così integrazioni complesse. I risultati sperimentali mostrano che la nostra decodifica speculativa continua raggiunge un notevole aumento di velocità del 2,33 volte su modelli pronti all'uso mantenendo la distribuzione di output. I codici saranno disponibili su https://github.com/MarkXCloud/CSpD
English
Continuous-valued Autoregressive (AR) image generation models have
demonstrated notable superiority over their discrete-token counterparts,
showcasing considerable reconstruction quality and higher generation fidelity.
However, the computational demands of the autoregressive framework result in
significant inference overhead. While speculative decoding has proven effective
in accelerating Large Language Models (LLMs), their adaptation to
continuous-valued visual autoregressive models remains unexplored. This work
generalizes the speculative decoding algorithm from discrete tokens to
continuous space. By analyzing the intrinsic properties of output distribution,
we establish a tailored acceptance criterion for the diffusion distributions
prevalent in such models. To overcome the inconsistency that occurred in
speculative decoding output distributions, we introduce denoising trajectory
alignment and token pre-filling methods. Additionally, we identify the
hard-to-sample distribution in the rejection phase. To mitigate this issue, we
propose a meticulous acceptance-rejection sampling method with a proper upper
bound, thereby circumventing complex integration. Experimental results show
that our continuous speculative decoding achieves a remarkable 2.33times
speed-up on off-the-shelf models while maintaining the output distribution.
Codes will be available at https://github.com/MarkXCloud/CSpDSummary
AI-Generated Summary