MonoFormer: 확산과 자기 회귀를 위한 단일 트랜스포머
MonoFormer: One Transformer for Both Diffusion and Autoregression
September 24, 2024
저자: Chuyang Zhao, Yuxing Song, Wenhao Wang, Haocheng Feng, Errui Ding, Yifan Sun, Xinyan Xiao, Jingdong Wang
cs.AI
초록
대부분의 기존 다중 모달성 방법은 자기 회귀 기반 이산 텍스트 생성 및 확산 기반 연속적 시각 생성을 위해 별도의 백본을 사용하거나 시각 데이터를 이산화하여 텍스트 및 시각 생성 모두에 대해 자기 회귀를 사용하는 동일한 백본을 사용합니다. 본 논문에서는 간단한 아이디어를 연구하기로 제안합니다: 자기 회귀 및 확산 모두에 대해 하나의 트랜스포머를 공유합니다. 이 가능성은 두 가지 주요 측면에서 나타납니다: (i) 트랜스포머가 시각 생성을 위해 확산에 성공적으로 적용되었으며, (ii) 자기 회귀 및 확산을 위한 트랜스포머 훈련이 매우 유사하며 차이점은 확산이 양방향 어텐션 마스크를 사용하고 자기 회귀가 인과 어텐션 마스크를 사용한다는 것입니다. 실험 결과는 저희 방법이 현재 최첨단 방법과 유사한 이미지 생성 성능을 달성하며 텍스트 생성 능력을 유지한다는 것을 보여줍니다. 해당 프로젝트는 https://monoformer.github.io/에서 공개되어 있습니다.
English
Most existing multimodality methods use separate backbones for
autoregression-based discrete text generation and diffusion-based continuous
visual generation, or the same backbone by discretizing the visual data to use
autoregression for both text and visual generation. In this paper, we propose
to study a simple idea: share one transformer for both autoregression and
diffusion. The feasibility comes from two main aspects: (i) Transformer is
successfully applied to diffusion for visual generation, and (ii) transformer
training for autoregression and diffusion is very similar, and the difference
merely lies in that diffusion uses bidirectional attention mask and
autoregression uses causal attention mask. Experimental results show that our
approach achieves comparable image generation performance to current
state-of-the-art methods as well as maintains the text generation capability.
The project is publicly available at https://monoformer.github.io/.Summary
AI-Generated Summary