HART: Effiziente visuelle Generierung mit hybriden autoregressiven Transformern

HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

October 14, 2024
Autoren: Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han
cs.AI

Zusammenfassung

Wir stellen den Hybrid Autoregressive Transformer (HART) vor, ein autoregressives (AR) visuelles Generierungsmodell, das in der Lage ist, direkt 1024x1024 Bilder zu erzeugen und dabei die Diffusionsmodelle in der Bildgenerierungsqualität zu übertreffen. Bestehende AR-Modelle stoßen auf Einschränkungen aufgrund der schlechten Bildrekonstruktionsqualität ihrer diskreten Tokenizer und der prohibitiven Trainingskosten, die mit der Generierung von 1024px Bildern verbunden sind. Um diesen Herausforderungen zu begegnen, präsentieren wir den Hybrid-Tokenizer, der die kontinuierlichen Latenten des Autoencoders in zwei Komponenten zerlegt: diskrete Token, die das Gesamtbild repräsentieren, und kontinuierliche Token, die die Restkomponenten repräsentieren, die nicht durch die diskreten Token dargestellt werden können. Die diskrete Komponente wird durch ein skalierbares diskretes AR-Modell mit variabler Auflösung modelliert, während die kontinuierliche Komponente mit einem leichten Restdiffusionsmodul mit nur 37 Millionen Parametern erlernt wird. Im Vergleich zum rein diskreten VAR-Tokenizer verbessert unser hybrider Ansatz die Rekonstruktions-FID von 2,11 auf 0,30 auf MJHQ-30K und führt zu einer 31%igen Verbesserung des Generierungs-FID von 7,85 auf 5,38. HART übertrifft auch die state-of-the-art Diffusionsmodelle sowohl im FID als auch im CLIP-Score, mit einer 4,5-7,7-fach höheren Durchsatzrate und 6,9-13,4-fach niedrigeren MACs. Unser Code ist unter https://github.com/mit-han-lab/hart öffentlich zugänglich gemacht.
English
We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR) visual generation model capable of directly generating 1024x1024 images, rivaling diffusion models in image generation quality. Existing AR models face limitations due to the poor image reconstruction quality of their discrete tokenizers and the prohibitive training costs associated with generating 1024px images. To address these challenges, we present the hybrid tokenizer, which decomposes the continuous latents from the autoencoder into two components: discrete tokens representing the big picture and continuous tokens representing the residual components that cannot be represented by the discrete tokens. The discrete component is modeled by a scalable-resolution discrete AR model, while the continuous component is learned with a lightweight residual diffusion module with only 37M parameters. Compared with the discrete-only VAR tokenizer, our hybrid approach improves reconstruction FID from 2.11 to 0.30 on MJHQ-30K, leading to a 31% generation FID improvement from 7.85 to 5.38. HART also outperforms state-of-the-art diffusion models in both FID and CLIP score, with 4.5-7.7x higher throughput and 6.9-13.4x lower MACs. Our code is open sourced at https://github.com/mit-han-lab/hart.

Summary

AI-Generated Summary

PDF142November 16, 2024