ChatPaper.aiChatPaper

ZipAR: 공간 국소성을 통해 자기회귀 이미지 생성 가속화

ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

December 5, 2024
저자: Yefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang
cs.AI

초록

본 논문에서는 AR(자기회귀) 시각 생성 가속화를 위한 훈련 없이 사용 가능한 병렬 디코딩 프레임워크인 ZipAR을 제안합니다. 동기는 이미지가 지역적 구조를 보여주며, 공간적으로 떨어진 영역들이 상호 의존성이 최소화되는 경향이 있다는 관찰에서 비롯됩니다. 시각적 토큰의 부분적으로 디코딩된 세트가 주어졌을 때, 행 차원에서의 원래의 다음 토큰 예측 체계에 추가하여, 열 차원에서 공간적으로 인접한 영역에 해당하는 토큰들을 병렬로 디코딩함으로써 "다음 세트 예측" 패러다임을 가능하게 합니다. 단일 전방향 패스에서 여러 토큰을 동시에 디코딩함으로써 이미지를 생성하는 데 필요한 전방향 패스의 수를 크게 줄여, 생성 효율성을 상당히 향상시킵니다. 실험 결과, ZipAR은 Emu3-Gen 모델에서 모델 전방향 패스의 수를 최대 91%까지 줄일 수 있으며, 추가적인 재훈련이 필요하지 않음을 입증하였습니다.
English
In this paper, we propose ZipAR, a training-free, plug-and-play parallel decoding framework for accelerating auto-regressive (AR) visual generation. The motivation stems from the observation that images exhibit local structures, and spatially distant regions tend to have minimal interdependence. Given a partially decoded set of visual tokens, in addition to the original next-token prediction scheme in the row dimension, the tokens corresponding to spatially adjacent regions in the column dimension can be decoded in parallel, enabling the ``next-set prediction'' paradigm. By decoding multiple tokens simultaneously in a single forward pass, the number of forward passes required to generate an image is significantly reduced, resulting in a substantial improvement in generation efficiency. Experiments demonstrate that ZipAR can reduce the number of model forward passes by up to 91% on the Emu3-Gen model without requiring any additional retraining.

Summary

AI-Generated Summary

PDF92December 6, 2024