HART : Génération Visuelle Efficace avec un Transformateur Autorégressif Hybride

Résumé

Nous introduisons le Transformer Autoregressif Hybride (HART), un modèle de génération visuelle autoregressif capable de générer directement des images de 1024x1024, rivalisant avec les modèles de diffusion en termes de qualité de génération d'images. Les modèles AR existants sont confrontés à des limitations en raison de la mauvaise qualité de reconstruction d'image de leurs tokenizers discrets et des coûts de formation prohibitifs associés à la génération d'images de 1024px. Pour relever ces défis, nous présentons le tokenizer hybride, qui décompose les latents continus de l'autoencodeur en deux composantes : des tokens discrets représentant l'image globale et des tokens continus représentant les composantes résiduelles qui ne peuvent pas être représentées par les tokens discrets. La composante discrète est modélisée par un modèle AR discret à résolution évolutive, tandis que la composante continue est apprise avec un module de diffusion résiduel léger avec seulement 37M de paramètres. Comparé au tokenizer VAR uniquement discret, notre approche hybride améliore le FID de reconstruction de 2,11 à 0,30 sur MJHQ-30K, entraînant une amélioration du FID de génération de 31% de 7,85 à 5,38. HART surpasse également les modèles de diffusion de pointe à la fois en FID et en score CLIP, avec un débit 4,5 à 7,7 fois plus élevé et des MACs 6,9 à 13,4 fois plus faibles. Notre code est open source sur https://github.com/mit-han-lab/hart.

English

We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR) visual generation model capable of directly generating 1024x1024 images, rivaling diffusion models in image generation quality. Existing AR models face limitations due to the poor image reconstruction quality of their discrete tokenizers and the prohibitive training costs associated with generating 1024px images. To address these challenges, we present the hybrid tokenizer, which decomposes the continuous latents from the autoencoder into two components: discrete tokens representing the big picture and continuous tokens representing the residual components that cannot be represented by the discrete tokens. The discrete component is modeled by a scalable-resolution discrete AR model, while the continuous component is learned with a lightweight residual diffusion module with only 37M parameters. Compared with the discrete-only VAR tokenizer, our hybrid approach improves reconstruction FID from 2.11 to 0.30 on MJHQ-30K, leading to a 31% generation FID improvement from 7.85 to 5.38. HART also outperforms state-of-the-art diffusion models in both FID and CLIP score, with 4.5-7.7x higher throughput and 6.9-13.4x lower MACs. Our code is open sourced at https://github.com/mit-han-lab/hart.

HART : Génération Visuelle Efficace avec un Transformateur Autorégressif Hybride

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Résumé

Support