자기회귀 이미지 생성을 위한 지속적 추론 디코딩
Continuous Speculative Decoding for Autoregressive Image Generation
November 18, 2024
저자: Zili Wang, Robert Zhang, Kun Ding, Qi Yang, Fei Li, Shiming Xiang
cs.AI
초록
연속값 자기회귀(AR) 이미지 생성 모델은 이산 토큰 대응물보다 뚜렷한 우월성을 나타내며 상당한 재구성 품질과 높은 생성 충실도를 보여주고 있다. 그러나 자기회귀 프레임워크의 계산 요구는 상당한 추론 오버헤드로 이어진다. 추측적 디코딩이 대형 언어 모델(LLMs)의 가속화에 효과적임이 입증되었지만, 이를 연속값 시각 자기회귀 모델에 적용한 연구는 아직 시도되지 않았다. 본 연구는 추측적 디코딩 알고리즘을 이산 토큰에서 연속 공간으로 일반화한다. 출력 분포의 본질적 특성을 분석하여, 이러한 모델에서 흔히 나타나는 확산 분포에 대한 맞춤형 수용 기준을 수립한다. 추측적 디코딩 출력 분포에서 발생한 불일치를 극복하기 위해, 소음 제거 궤적 정렬 및 토큰 사전 채움 방법을 도입한다. 또한, 거부 단계에서 발생하는 샘플링 어려움 분포를 식별한다. 이 문제를 완화하기 위해, 적절한 상한선을 가진 세심한 수용-거부 샘플링 방법을 제안하여 복잡한 적분을 우회한다. 실험 결과는 우리의 연속 추측적 디코딩이 완제품 모델에서 놀라운 2.33배 속도 향상을 달성하면서 출력 분포를 유지한다는 것을 보여준다. 코드는 https://github.com/MarkXCloud/CSpD에서 이용 가능할 것이다.
English
Continuous-valued Autoregressive (AR) image generation models have
demonstrated notable superiority over their discrete-token counterparts,
showcasing considerable reconstruction quality and higher generation fidelity.
However, the computational demands of the autoregressive framework result in
significant inference overhead. While speculative decoding has proven effective
in accelerating Large Language Models (LLMs), their adaptation to
continuous-valued visual autoregressive models remains unexplored. This work
generalizes the speculative decoding algorithm from discrete tokens to
continuous space. By analyzing the intrinsic properties of output distribution,
we establish a tailored acceptance criterion for the diffusion distributions
prevalent in such models. To overcome the inconsistency that occurred in
speculative decoding output distributions, we introduce denoising trajectory
alignment and token pre-filling methods. Additionally, we identify the
hard-to-sample distribution in the rejection phase. To mitigate this issue, we
propose a meticulous acceptance-rejection sampling method with a proper upper
bound, thereby circumventing complex integration. Experimental results show
that our continuous speculative decoding achieves a remarkable 2.33times
speed-up on off-the-shelf models while maintaining the output distribution.
Codes will be available at https://github.com/MarkXCloud/CSpDSummary
AI-Generated Summary