HART : Génération Visuelle Efficace avec un Transformateur Autorégressif Hybride
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
October 14, 2024
Auteurs: Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han
cs.AI
Résumé
Nous introduisons le Transformer Autoregressif Hybride (HART), un modèle de génération visuelle autoregressif capable de générer directement des images de 1024x1024, rivalisant avec les modèles de diffusion en termes de qualité de génération d'images. Les modèles AR existants sont confrontés à des limitations en raison de la mauvaise qualité de reconstruction d'image de leurs tokenizers discrets et des coûts de formation prohibitifs associés à la génération d'images de 1024px. Pour relever ces défis, nous présentons le tokenizer hybride, qui décompose les latents continus de l'autoencodeur en deux composantes : des tokens discrets représentant l'image globale et des tokens continus représentant les composantes résiduelles qui ne peuvent pas être représentées par les tokens discrets. La composante discrète est modélisée par un modèle AR discret à résolution évolutive, tandis que la composante continue est apprise avec un module de diffusion résiduel léger avec seulement 37M de paramètres. Comparé au tokenizer VAR uniquement discret, notre approche hybride améliore le FID de reconstruction de 2,11 à 0,30 sur MJHQ-30K, entraînant une amélioration du FID de génération de 31% de 7,85 à 5,38. HART surpasse également les modèles de diffusion de pointe à la fois en FID et en score CLIP, avec un débit 4,5 à 7,7 fois plus élevé et des MACs 6,9 à 13,4 fois plus faibles. Notre code est open source sur https://github.com/mit-han-lab/hart.
English
We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR)
visual generation model capable of directly generating 1024x1024 images,
rivaling diffusion models in image generation quality. Existing AR models face
limitations due to the poor image reconstruction quality of their discrete
tokenizers and the prohibitive training costs associated with generating 1024px
images. To address these challenges, we present the hybrid tokenizer, which
decomposes the continuous latents from the autoencoder into two components:
discrete tokens representing the big picture and continuous tokens representing
the residual components that cannot be represented by the discrete tokens. The
discrete component is modeled by a scalable-resolution discrete AR model, while
the continuous component is learned with a lightweight residual diffusion
module with only 37M parameters. Compared with the discrete-only VAR tokenizer,
our hybrid approach improves reconstruction FID from 2.11 to 0.30 on MJHQ-30K,
leading to a 31% generation FID improvement from 7.85 to 5.38. HART also
outperforms state-of-the-art diffusion models in both FID and CLIP score, with
4.5-7.7x higher throughput and 6.9-13.4x lower MACs. Our code is open sourced
at https://github.com/mit-han-lab/hart.Summary
AI-Generated Summary