ChatPaper.aiChatPaper

병렬화된 자기회귀식 시각 생성

Parallelized Autoregressive Visual Generation

December 19, 2024
저자: Yuqing Wang, Shuhuai Ren, Zhijie Lin, Yujin Han, Haoyuan Guo, Zhenheng Yang, Difan Zou, Jiashi Feng, Xihui Liu
cs.AI

초록

자기회귀 모델은 시각 생성을 위한 강력한 접근 방식으로 등장했지만 순차적인 토큰 단위 예측 과정으로 인해 추론 속도가 느린 단점이 있습니다. 본 논문에서는 병렬 자기회귀 시각 생성을 위한 간단하면서도 효과적인 접근 방식을 제안합니다. 이 방법은 생성 효율성을 향상시키면서 자기회귀 모델링의 장점을 유지합니다. 우리의 주요 인사이트는 병렬 생성이 시각 토큰 의존성에 의존한다는 것입니다. 즉, 약한 의존성을 가진 토큰은 병렬로 생성될 수 있지만 강한 의존성을 가진 인접한 토큰은 함께 생성하기 어렵습니다. 왜냐하면 독립적인 샘플링으로 인해 일관성 문제가 발생할 수 있기 때문입니다. 이 관찰을 기반으로, 우리는 먼 거리에 있는 약한 의존성을 가진 토큰을 병렬로 생성하면서 강한 의존성을 가진 근접한 토큰에 대해서는 순차적 생성을 유지하는 병렬 생성 전략을 개발합니다. 우리의 방법은 아키텍처나 토크나이저를 수정하지 않고 표준 자기회귀 모델에 매끄럽게 통합될 수 있습니다. ImageNet 및 UCF-101에서의 실험 결과는 우리의 방법이 이미지 및 비디오 생성 작업 모두에서 비교 가능한 품질로 3.6배의 속도 향상을 달성하며 최소한의 품질 저하로 최대 9.5배의 속도 향상을 보여줍니다. 우리는 본 연구가 효율적인 시각 생성 및 통합된 자기회귀 모델링에 대한 미래 연구에 영감을 줄 것으로 기대합니다. 프로젝트 페이지: https://epiphqny.github.io/PAR-project.
English
Autoregressive models have emerged as a powerful approach for visual generation but suffer from slow inference speed due to their sequential token-by-token prediction process. In this paper, we propose a simple yet effective approach for parallelized autoregressive visual generation that improves generation efficiency while preserving the advantages of autoregressive modeling. Our key insight is that parallel generation depends on visual token dependencies-tokens with weak dependencies can be generated in parallel, while strongly dependent adjacent tokens are difficult to generate together, as their independent sampling may lead to inconsistencies. Based on this observation, we develop a parallel generation strategy that generates distant tokens with weak dependencies in parallel while maintaining sequential generation for strongly dependent local tokens. Our approach can be seamlessly integrated into standard autoregressive models without modifying the architecture or tokenizer. Experiments on ImageNet and UCF-101 demonstrate that our method achieves a 3.6x speedup with comparable quality and up to 9.5x speedup with minimal quality degradation across both image and video generation tasks. We hope this work will inspire future research in efficient visual generation and unified autoregressive modeling. Project page: https://epiphqny.github.io/PAR-project.
PDF512December 23, 2024