HART: 혼합 자기회귀 트랜스포머를 사용한 효율적인 시각 생성
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
October 14, 2024
저자: Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han
cs.AI
초록
우리는 Hybrid Autoregressive Transformer (HART)을 소개합니다. 이는 1024x1024 이미지를 직접 생성할 수 있는 AR(자기회귀) 시각 생성 모델로, 이미지 생성 품질에서 확산 모델과 경쟁합니다. 기존의 AR 모델은 이산 토크나이저의 이미지 재구성 품질이 낮고 1024px 이미지 생성에 따른 훈련 비용이 방해 요소로 작용하는 한계에 직면합니다. 이러한 도전에 대응하기 위해, 우리는 하이브리드 토크나이저를 제안합니다. 이는 오토인코더로부터 연속적인 잠재 변수를 두 부분으로 분해합니다. 전체적인 이미지를 나타내는 이산 토큰과 이산 토큰으로 표현할 수 없는 잔여 구성 요소를 나타내는 연속 토큰입니다. 이산 구성 요소는 확장 가능한 해상도의 이산 AR 모델에 의해 모델링되고, 연속 구성 요소는 37M 매개변수만으로 가벼운 잔여 확산 모듈로 학습됩니다. 이산만을 사용하는 VAR 토크나이저와 비교했을 때, 우리의 하이브리드 접근법은 MJHQ-30K에서 재구성 FID를 2.11에서 0.30으로 개선시켰으며, 생성 FID를 7.85에서 5.38로 31% 향상시켰습니다. HART는 FID와 CLIP 점수에서 최첨단 확산 모델을 능가하며, 처리량은 4.5-7.7배 높고 MACs는 6.9-13.4배 낮습니다. 우리의 코드는 https://github.com/mit-han-lab/hart에서 오픈 소스로 제공됩니다.
English
We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR)
visual generation model capable of directly generating 1024x1024 images,
rivaling diffusion models in image generation quality. Existing AR models face
limitations due to the poor image reconstruction quality of their discrete
tokenizers and the prohibitive training costs associated with generating 1024px
images. To address these challenges, we present the hybrid tokenizer, which
decomposes the continuous latents from the autoencoder into two components:
discrete tokens representing the big picture and continuous tokens representing
the residual components that cannot be represented by the discrete tokens. The
discrete component is modeled by a scalable-resolution discrete AR model, while
the continuous component is learned with a lightweight residual diffusion
module with only 37M parameters. Compared with the discrete-only VAR tokenizer,
our hybrid approach improves reconstruction FID from 2.11 to 0.30 on MJHQ-30K,
leading to a 31% generation FID improvement from 7.85 to 5.38. HART also
outperforms state-of-the-art diffusion models in both FID and CLIP score, with
4.5-7.7x higher throughput and 6.9-13.4x lower MACs. Our code is open sourced
at https://github.com/mit-han-lab/hart.Summary
AI-Generated Summary