ChatPaper.aiChatPaper

ACDiT: 자기회귀 조건부 모델링과 확산 트랜스포머의 보간

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

December 10, 2024
저자: Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun
cs.AI

초록

최근 종합적인 다중 모달 모델에 대한 관심이 급증함에 따라 다양한 모달의 통합이 필요해졌습니다. 그러나 이 통합은 상이한 방법론으로부터 고통을 겪고 있습니다. 지속적인 시각 생성은 텍스트 영역의 자기 회귀 모델링과는 달리 완전한 순차 확산 기반 접근이 필요합니다. 우리는 과거 결정론적 경험을 기반으로 미래를 예측하는 자기 회귀 모델링, 즉 자기 회귀 모델링이 시각 생성 모델 및 잠재적 통합 다중 모달 모델 개발에 중요하다고 주장합니다. 본 논문에서는 자기 회귀 모델링과 전체 매개변수 확산을 보간하기 위해 시각 정보를 모델링하는 방법을 탐구합니다. 핵심적으로, 우리는 확산 블록 크기, 즉 자기 회귀 단위의 크기를 유연하게 조절하여 토큰별 자기 회귀와 전체 시퀀스 확산 사이를 보간할 수 있는 Autoregressive blockwise Conditional Diffusion Transformer인 ACDiT를 제안합니다. ACDiT는 훈련 중 Skip-Causal Attention Mask (SCAM)을 생성하는 것만큼 간단하게 구현할 수 있습니다. 추론 중에는 확산 노이즈 제거와 자기 회귀 디코딩 사이를 반복하는 프로세스를 KV-Cache를 최대한 활용할 수 있습니다. 우리는 ACDiT의 효과를 이미지 및 비디오 생성 작업에서 검증합니다. 또한 자기 회귀 모델링의 이점을 살펴본 결과, ACDiT는 확산 목표로 훈련되었음에도 불구하고 시각 이해 작업에서 매끄럽게 사용될 수 있음을 입증합니다. 자기 회귀 모델링과 확산 사이의 균형을 분석함으로써 ACDiT의 장기적 시각 생성 작업에 사용될 수 있는 잠재력을 입증합니다. 이러한 강점들은 ACDiT를 미래 통합 모델의 백본으로 유망하게 만듭니다.
English
The recent surge of interest in comprehensive multimodal models has necessitated the unification of diverse modalities. However, the unification suffers from disparate methodologies. Continuous visual generation necessitates the full-sequence diffusion-based approach, despite its divergence from the autoregressive modeling in the text domain. We posit that autoregressive modeling, i.e., predicting the future based on past deterministic experience, remains crucial in developing both a visual generation model and a potential unified multimodal model. In this paper, we explore an interpolation between the autoregressive modeling and full-parameters diffusion to model visual information. At its core, we present ACDiT, an Autoregressive blockwise Conditional Diffusion Transformer, where the block size of diffusion, i.e., the size of autoregressive units, can be flexibly adjusted to interpolate between token-wise autoregression and full-sequence diffusion. ACDiT is easy to implement, as simple as creating a Skip-Causal Attention Mask (SCAM) during training. During inference, the process iterates between diffusion denoising and autoregressive decoding that can make full use of KV-Cache. We verify the effectiveness of ACDiT on image and video generation tasks. We also demonstrate that benefitted from autoregressive modeling, ACDiT can be seamlessly used in visual understanding tasks despite being trained on the diffusion objective. The analysis of the trade-off between autoregressive modeling and diffusion demonstrates the potential of ACDiT to be used in long-horizon visual generation tasks. These strengths make it promising as the backbone of future unified models.

Summary

AI-Generated Summary

PDF302December 11, 2024