Continue Speculatief Decoderen voor Autoregressieve Beeldgeneratie
Continuous Speculative Decoding for Autoregressive Image Generation
November 18, 2024
Auteurs: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang
cs.AI
Samenvatting
Continue-waardige Autoregressieve (AR) beeldgeneratiemodellen hebben aanzienlijke superioriteit aangetoond ten opzichte van hun discrete-token tegenhangers, waarbij ze aanzienlijke reconstructiekwaliteit en hogere generatiefideliteit tonen. Echter, de computationele eisen van het autoregressieve raamwerk leiden tot aanzienlijke inferentie-overhead. Hoewel speculatieve decodering effectief is gebleken bij het versnellen van Grote Taalmodellen (LLM's), is hun aanpassing aan continue-waardige visuele autoregressieve modellen nog onontgonnen terrein. Dit werk generaliseert het speculatieve decoderingsalgoritme van discrete tokens naar continue ruimte. Door de intrinsieke eigenschappen van de uitvoeringsverdeling te analyseren, stellen we een op maat gemaakte acceptatiecriterium vast voor de diffusieverdelingen die gangbaar zijn in dergelijke modellen. Om de inconsistentie die optrad in de uitvoeringsverdelingen van speculatieve decodering te overwinnen, introduceren we methoden voor het uitlijnen van denoising-trajecten en voor het vooraf invullen van tokens. Daarnaast identificeren we de moeilijk te monsteren verdeling in de afwijzingsfase. Om dit probleem te verlichten, stellen we een zorgvuldige acceptatie-afwijzingssteekproefmethode voor met een juiste bovengrens, waardoor complexe integratie wordt omzeild. Experimentele resultaten tonen aan dat onze continue speculatieve decodering een opmerkelijke 2,33 keer versnelling behaalt op kant-en-klare modellen, terwijl de uitvoeringsverdeling behouden blijft. De codes zullen beschikbaar zijn op https://github.com/MarkXCloud/CSpD
English
Continuous-valued Autoregressive (AR) image generation models have
demonstrated notable superiority over their discrete-token counterparts,
showcasing considerable reconstruction quality and higher generation fidelity.
However, the computational demands of the autoregressive framework result in
significant inference overhead. While speculative decoding has proven effective
in accelerating Large Language Models (LLMs), their adaptation to
continuous-valued visual autoregressive models remains unexplored. This work
generalizes the speculative decoding algorithm from discrete tokens to
continuous space. By analyzing the intrinsic properties of output distribution,
we establish a tailored acceptance criterion for the diffusion distributions
prevalent in such models. To overcome the inconsistency that occurred in
speculative decoding output distributions, we introduce denoising trajectory
alignment and token pre-filling methods. Additionally, we identify the
hard-to-sample distribution in the rejection phase. To mitigate this issue, we
propose a meticulous acceptance-rejection sampling method with a proper upper
bound, thereby circumventing complex integration. Experimental results show
that our continuous speculative decoding achieves a remarkable 2.33times
speed-up on off-the-shelf models while maintaining the output distribution.
Codes will be available at https://github.com/MarkXCloud/CSpDSummary
AI-Generated Summary