Kontinuierliche spekulative Dekodierung für autoregressive Bildgenerierung
Continuous Speculative Decoding for Autoregressive Image Generation
November 18, 2024
Autoren: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang
cs.AI
Zusammenfassung
Kontinuierliche autoregressive (AR) Bildgenerierungsmodelle haben eine bemerkenswerte Überlegenheit gegenüber ihren diskreten Token-Gegenstücken gezeigt, indem sie eine beträchtliche Rekonstruktionsqualität und eine höhere Generierungstreue präsentierten. Die Rechenanforderungen des autoregressiven Rahmens führen jedoch zu erheblichem Inferenzaufwand. Während spekulatives Decodieren sich als effektiv zur Beschleunigung großer Sprachmodelle (LLMs) erwiesen hat, bleibt ihre Anpassung an kontinuierlich bewertete visuelle autoregressive Modelle unerforscht. Diese Arbeit verallgemeinert den spekulativen Decodierungsalgorithmus von diskreten Tokens auf den kontinuierlichen Raum. Durch die Analyse der intrinsischen Eigenschaften der Ausgabeverteilung etablieren wir ein maßgeschneidertes Akzeptanzkriterium für die in solchen Modellen vorherrschenden Diffusionsverteilungen. Um die Inkonsistenz zu überwinden, die bei Ausgabeverteilungen des spekulativen Decodierens auftrat, führen wir Methoden zur Rauschunterdrückung, Trajektorienausrichtung und Token-Vorabfüllung ein. Darüber hinaus identifizieren wir die schwer zu sampelnde Verteilung in der Ablehnungsphase. Um dieses Problem zu mildern, schlagen wir eine sorgfältige Akzeptanz-Ablehnungs-Sampling-Methode mit einer angemessenen Obergrenze vor, um komplexe Integrationen zu umgehen. Experimentelle Ergebnisse zeigen, dass unser kontinuierliches spekulatives Decodieren eine bemerkenswerte 2,33-fache Beschleunigung bei Modellen von der Stange erreicht, während die Ausgabeverteilung beibehalten wird. Der Code wird verfügbar sein unter https://github.com/MarkXCloud/CSpD.
English
Continuous-valued Autoregressive (AR) image generation models have
demonstrated notable superiority over their discrete-token counterparts,
showcasing considerable reconstruction quality and higher generation fidelity.
However, the computational demands of the autoregressive framework result in
significant inference overhead. While speculative decoding has proven effective
in accelerating Large Language Models (LLMs), their adaptation to
continuous-valued visual autoregressive models remains unexplored. This work
generalizes the speculative decoding algorithm from discrete tokens to
continuous space. By analyzing the intrinsic properties of output distribution,
we establish a tailored acceptance criterion for the diffusion distributions
prevalent in such models. To overcome the inconsistency that occurred in
speculative decoding output distributions, we introduce denoising trajectory
alignment and token pre-filling methods. Additionally, we identify the
hard-to-sample distribution in the rejection phase. To mitigate this issue, we
propose a meticulous acceptance-rejection sampling method with a proper upper
bound, thereby circumventing complex integration. Experimental results show
that our continuous speculative decoding achieves a remarkable 2.33times
speed-up on off-the-shelf models while maintaining the output distribution.
Codes will be available at https://github.com/MarkXCloud/CSpDSummary
AI-Generated Summary