Kontinuierliche spekulative Dekodierung für autoregressive Bildgenerierung

Continuous Speculative Decoding for Autoregressive Image Generation

November 18, 2024
Autoren: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang
cs.AI

Zusammenfassung

Kontinuierliche autoregressive (AR) Bildgenerierungsmodelle haben eine bemerkenswerte Überlegenheit gegenüber ihren diskreten Token-Gegenstücken gezeigt, indem sie eine beträchtliche Rekonstruktionsqualität und eine höhere Generierungstreue präsentierten. Die Rechenanforderungen des autoregressiven Rahmens führen jedoch zu erheblichem Inferenzaufwand. Während spekulatives Decodieren sich als effektiv zur Beschleunigung großer Sprachmodelle (LLMs) erwiesen hat, bleibt ihre Anpassung an kontinuierlich bewertete visuelle autoregressive Modelle unerforscht. Diese Arbeit verallgemeinert den spekulativen Decodierungsalgorithmus von diskreten Tokens auf den kontinuierlichen Raum. Durch die Analyse der intrinsischen Eigenschaften der Ausgabeverteilung etablieren wir ein maßgeschneidertes Akzeptanzkriterium für die in solchen Modellen vorherrschenden Diffusionsverteilungen. Um die Inkonsistenz zu überwinden, die bei Ausgabeverteilungen des spekulativen Decodierens auftrat, führen wir Methoden zur Rauschunterdrückung, Trajektorienausrichtung und Token-Vorabfüllung ein. Darüber hinaus identifizieren wir die schwer zu sampelnde Verteilung in der Ablehnungsphase. Um dieses Problem zu mildern, schlagen wir eine sorgfältige Akzeptanz-Ablehnungs-Sampling-Methode mit einer angemessenen Obergrenze vor, um komplexe Integrationen zu umgehen. Experimentelle Ergebnisse zeigen, dass unser kontinuierliches spekulatives Decodieren eine bemerkenswerte 2,33-fache Beschleunigung bei Modellen von der Stange erreicht, während die Ausgabeverteilung beibehalten wird. Der Code wird verfügbar sein unter https://github.com/MarkXCloud/CSpD.
English
Continuous-valued Autoregressive (AR) image generation models have demonstrated notable superiority over their discrete-token counterparts, showcasing considerable reconstruction quality and higher generation fidelity. However, the computational demands of the autoregressive framework result in significant inference overhead. While speculative decoding has proven effective in accelerating Large Language Models (LLMs), their adaptation to continuous-valued visual autoregressive models remains unexplored. This work generalizes the speculative decoding algorithm from discrete tokens to continuous space. By analyzing the intrinsic properties of output distribution, we establish a tailored acceptance criterion for the diffusion distributions prevalent in such models. To overcome the inconsistency that occurred in speculative decoding output distributions, we introduce denoising trajectory alignment and token pre-filling methods. Additionally, we identify the hard-to-sample distribution in the rejection phase. To mitigate this issue, we propose a meticulous acceptance-rejection sampling method with a proper upper bound, thereby circumventing complex integration. Experimental results show that our continuous speculative decoding achieves a remarkable 2.33times speed-up on off-the-shelf models while maintaining the output distribution. Codes will be available at https://github.com/MarkXCloud/CSpD

Summary

AI-Generated Summary

PDF133November 20, 2024