ChatPaper.aiChatPaper

Token-Shuffle: Auf dem Weg zur hochauflösenden Bildgenerierung mit autoregressiven Modellen

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

April 24, 2025
Autoren: Xu Ma, Peize Sun, Haoyu Ma, Hao Tang, Chih-Yao Ma, Jialiang Wang, Kunpeng Li, Xiaoliang Dai, Yujun Shi, Xuan Ju, Yushi Hu, Artsiom Sanakoyeu, Felix Juefei-Xu, Ji Hou, Junjiao Tian, Tao Xu, Tingbo Hou, Yen-Cheng Liu, Zecheng He, Zijian He, Matt Feiszli, Peizhao Zhang, Peter Vajda, Sam Tsai, Yun Fu
cs.AI

Zusammenfassung

Autoregressive (AR) Modelle, die lange Zeit in der Sprachgenerierung dominierten, werden zunehmend auch in der Bildsynthese eingesetzt, gelten jedoch oft als weniger wettbewerbsfähig als Diffusionsbasierte Modelle. Eine wesentliche Einschränkung ist die erhebliche Anzahl von Bild-Tokens, die AR-Modelle benötigen, was sowohl die Trainings- als auch die Inferenzeffizienz sowie die Bildauflösung beeinträchtigt. Um dies zu adressieren, präsentieren wir Token-Shuffle, eine neuartige, aber einfache Methode, die die Anzahl der Bild-Tokens in Transformern reduziert. Unser zentraler Ansatz ist die dimensionale Redundanz visueller Vokabulare in Multimodalen Großen Sprachmodellen (MLLMs), bei denen niedrigdimensionale visuelle Codes aus dem visuellen Encoder direkt auf hochdimensionale Sprachvokabulare abgebildet werden. Dies nutzend, betrachten wir zwei Schlüsseloperationen: Token-Shuffle, das räumlich lokale Tokens entlang der Kanaldimension zusammenführt, um die Anzahl der Eingabe-Tokens zu verringern, und Token-Unshuffle, das die abgeleiteten Tokens nach den Transformer-Blöcken entwirrt, um die räumliche Anordnung für die Ausgabe wiederherzustellen. Gemeinsam mit textuellen Prompts trainiert, erfordert unsere Strategie keinen zusätzlich vortrainierten Text-Encoder und ermöglicht es MLLMs, extrem hochauflösende Bildsynthese in einer einheitlichen nächsten-Token-Vorhersageweise zu unterstützen, während effizientes Training und Inferenz gewährleistet bleiben. Zum ersten Mal erweitern wir die Grenzen der AR-Text-zu-Bild-Generierung auf eine Auflösung von 2048x2048 mit überzeugender Generierungsleistung. Im GenAI-Benchmark erreicht unser 2,7B-Modell eine Gesamtpunktzahl von 0,77 bei schwierigen Prompts, womit es AR-Modelle wie LlamaGen um 0,18 und Diffusionsmodelle wie LDM um 0,15 übertrifft. Umfangreiche groß angelegte menschliche Bewertungen demonstrieren ebenfalls unsere herausragende Bildgenerierungsfähigkeit in Bezug auf Textausrichtung, visuelle Fehler und visuelles Erscheinungsbild. Wir hoffen, dass Token-Shuffle als grundlegendes Design für effiziente hochauflösende Bildgenerierung innerhalb von MLLMs dienen kann.
English
Autoregressive (AR) models, long dominant in language generation, are increasingly applied to image synthesis but are often considered less competitive than Diffusion-based models. A primary limitation is the substantial number of image tokens required for AR models, which constrains both training and inference efficiency, as well as image resolution. To address this, we present Token-Shuffle, a novel yet simple method that reduces the number of image tokens in Transformer. Our key insight is the dimensional redundancy of visual vocabularies in Multimodal Large Language Models (MLLMs), where low-dimensional visual codes from visual encoder are directly mapped to high-dimensional language vocabularies. Leveraging this, we consider two key operations: token-shuffle, which merges spatially local tokens along channel dimension to decrease the input token number, and token-unshuffle, which untangles the inferred tokens after Transformer blocks to restore the spatial arrangement for output. Jointly training with textual prompts, our strategy requires no additional pretrained text-encoder and enables MLLMs to support extremely high-resolution image synthesis in a unified next-token prediction way while maintaining efficient training and inference. For the first time, we push the boundary of AR text-to-image generation to a resolution of 2048x2048 with gratifying generation performance. In GenAI-benchmark, our 2.7B model achieves 0.77 overall score on hard prompts, outperforming AR models LlamaGen by 0.18 and diffusion models LDM by 0.15. Exhaustive large-scale human evaluations also demonstrate our prominent image generation ability in terms of text-alignment, visual flaw, and visual appearance. We hope that Token-Shuffle can serve as a foundational design for efficient high-resolution image generation within MLLMs.

Summary

AI-Generated Summary

PDF193April 25, 2025