Décodage spéculatif continu pour la génération d'images autorégressive
Continuous Speculative Decoding for Autoregressive Image Generation
November 18, 2024
Auteurs: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang
cs.AI
Résumé
Les modèles de génération d'images autorégressifs à valeurs continues (AR) ont démontré une nette supériorité par rapport à leurs homologues à jetons discrets, mettant en avant une qualité de reconstruction considérable et une fidélité de génération plus élevée. Cependant, les exigences computationnelles du cadre autorégressif entraînent un surcoût significatif en termes d'inférence. Alors que le décodage spéculatif s'est avéré efficace pour accélérer les grands modèles de langage (LLMs), leur adaptation aux modèles autorégressifs visuels à valeurs continues reste inexplorée. Ce travail généralise l'algorithme de décodage spéculatif des jetons discrets à l'espace continu. En analysant les propriétés intrinsèques de la distribution de sortie, nous établissons un critère d'acceptation adapté aux distributions de diffusion prévalentes dans de tels modèles. Pour surmonter l'incohérence survenue dans les distributions de sortie du décodage spéculatif, nous introduisons des méthodes d'alignement de trajectoire de débruitage et de pré-remplissage de jetons. De plus, nous identifions la distribution difficile à échantillonner dans la phase de rejet. Pour atténuer ce problème, nous proposons une méthode méticuleuse d'échantillonnage par acceptation-rejet avec une borne supérieure appropriée, contournant ainsi une intégration complexe. Les résultats expérimentaux montrent que notre décodage spéculatif continu permet d'obtenir un gain de vitesse remarquable de 2,33 fois sur des modèles prêts à l'emploi tout en maintenant la distribution de sortie. Les codes seront disponibles sur https://github.com/MarkXCloud/CSpD.
English
Continuous-valued Autoregressive (AR) image generation models have
demonstrated notable superiority over their discrete-token counterparts,
showcasing considerable reconstruction quality and higher generation fidelity.
However, the computational demands of the autoregressive framework result in
significant inference overhead. While speculative decoding has proven effective
in accelerating Large Language Models (LLMs), their adaptation to
continuous-valued visual autoregressive models remains unexplored. This work
generalizes the speculative decoding algorithm from discrete tokens to
continuous space. By analyzing the intrinsic properties of output distribution,
we establish a tailored acceptance criterion for the diffusion distributions
prevalent in such models. To overcome the inconsistency that occurred in
speculative decoding output distributions, we introduce denoising trajectory
alignment and token pre-filling methods. Additionally, we identify the
hard-to-sample distribution in the rejection phase. To mitigate this issue, we
propose a meticulous acceptance-rejection sampling method with a proper upper
bound, thereby circumventing complex integration. Experimental results show
that our continuous speculative decoding achieves a remarkable 2.33times
speed-up on off-the-shelf models while maintaining the output distribution.
Codes will be available at https://github.com/MarkXCloud/CSpDSummary
AI-Generated Summary