Token-Shuffle: Auf dem Weg zur hochauflösenden Bildgenerierung mit autoregressiven Modellen
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
April 24, 2025
Autoren: Xu Ma, Peize Sun, Haoyu Ma, Hao Tang, Chih-Yao Ma, Jialiang Wang, Kunpeng Li, Xiaoliang Dai, Yujun Shi, Xuan Ju, Yushi Hu, Artsiom Sanakoyeu, Felix Juefei-Xu, Ji Hou, Junjiao Tian, Tao Xu, Tingbo Hou, Yen-Cheng Liu, Zecheng He, Zijian He, Matt Feiszli, Peizhao Zhang, Peter Vajda, Sam Tsai, Yun Fu
cs.AI
Zusammenfassung
Autoregressive (AR) Modelle, die lange Zeit in der Sprachgenerierung dominierten, werden zunehmend auch in der Bildsynthese eingesetzt, gelten jedoch oft als weniger wettbewerbsfähig als Diffusionsbasierte Modelle. Eine wesentliche Einschränkung ist die erhebliche Anzahl von Bild-Tokens, die AR-Modelle benötigen, was sowohl die Trainings- als auch die Inferenzeffizienz sowie die Bildauflösung beeinträchtigt. Um dies zu adressieren, präsentieren wir Token-Shuffle, eine neuartige, aber einfache Methode, die die Anzahl der Bild-Tokens in Transformern reduziert. Unser zentraler Ansatz ist die dimensionale Redundanz visueller Vokabulare in Multimodalen Großen Sprachmodellen (MLLMs), bei denen niedrigdimensionale visuelle Codes aus dem visuellen Encoder direkt auf hochdimensionale Sprachvokabulare abgebildet werden. Dies nutzend, betrachten wir zwei Schlüsseloperationen: Token-Shuffle, das räumlich lokale Tokens entlang der Kanaldimension zusammenführt, um die Anzahl der Eingabe-Tokens zu verringern, und Token-Unshuffle, das die abgeleiteten Tokens nach den Transformer-Blöcken entwirrt, um die räumliche Anordnung für die Ausgabe wiederherzustellen. Gemeinsam mit textuellen Prompts trainiert, erfordert unsere Strategie keinen zusätzlich vortrainierten Text-Encoder und ermöglicht es MLLMs, extrem hochauflösende Bildsynthese in einer einheitlichen nächsten-Token-Vorhersageweise zu unterstützen, während effizientes Training und Inferenz gewährleistet bleiben. Zum ersten Mal erweitern wir die Grenzen der AR-Text-zu-Bild-Generierung auf eine Auflösung von 2048x2048 mit überzeugender Generierungsleistung. Im GenAI-Benchmark erreicht unser 2,7B-Modell eine Gesamtpunktzahl von 0,77 bei schwierigen Prompts, womit es AR-Modelle wie LlamaGen um 0,18 und Diffusionsmodelle wie LDM um 0,15 übertrifft. Umfangreiche groß angelegte menschliche Bewertungen demonstrieren ebenfalls unsere herausragende Bildgenerierungsfähigkeit in Bezug auf Textausrichtung, visuelle Fehler und visuelles Erscheinungsbild. Wir hoffen, dass Token-Shuffle als grundlegendes Design für effiziente hochauflösende Bildgenerierung innerhalb von MLLMs dienen kann.
English
Autoregressive (AR) models, long dominant in language generation, are
increasingly applied to image synthesis but are often considered less
competitive than Diffusion-based models. A primary limitation is the
substantial number of image tokens required for AR models, which constrains
both training and inference efficiency, as well as image resolution. To address
this, we present Token-Shuffle, a novel yet simple method that reduces the
number of image tokens in Transformer. Our key insight is the dimensional
redundancy of visual vocabularies in Multimodal Large Language Models (MLLMs),
where low-dimensional visual codes from visual encoder are directly mapped to
high-dimensional language vocabularies. Leveraging this, we consider two key
operations: token-shuffle, which merges spatially local tokens along channel
dimension to decrease the input token number, and token-unshuffle, which
untangles the inferred tokens after Transformer blocks to restore the spatial
arrangement for output. Jointly training with textual prompts, our strategy
requires no additional pretrained text-encoder and enables MLLMs to support
extremely high-resolution image synthesis in a unified next-token prediction
way while maintaining efficient training and inference. For the first time, we
push the boundary of AR text-to-image generation to a resolution of 2048x2048
with gratifying generation performance. In GenAI-benchmark, our 2.7B model
achieves 0.77 overall score on hard prompts, outperforming AR models LlamaGen
by 0.18 and diffusion models LDM by 0.15. Exhaustive large-scale human
evaluations also demonstrate our prominent image generation ability in terms of
text-alignment, visual flaw, and visual appearance. We hope that Token-Shuffle
can serve as a foundational design for efficient high-resolution image
generation within MLLMs.Summary
AI-Generated Summary