Bild als Menge tokenisieren

Zusammenfassung

Dieses Papier schlägt ein grundlegend neues Paradigma für die Bildgenerierung durch mengenbasierte Tokenisierung und Verteilungsmodellierung vor. Im Gegensatz zu konventionellen Methoden, die Bilder in festpositionierte latente Codes mit einem einheitlichen Kompressionsverhältnis serialisieren, führen wir eine ungeordnete Token-Mengen-Darstellung ein, die die Kodierungskapazität dynamisch basierend auf der regionalen semantischen Komplexität zuweist. Diese TokenSet-Methode verbessert die Aggregation des globalen Kontexts und erhöht die Robustheit gegenüber lokalen Störungen. Um die entscheidende Herausforderung der Modellierung diskreter Mengen zu bewältigen, entwickeln wir einen dualen Transformationsmechanismus, der Mengen bijektiv in festlängige Integer-Sequenzen mit Summationsbeschränkungen umwandelt. Darüber hinaus schlagen wir Fixed-Sum Discrete Diffusion vor – das erste Framework, das gleichzeitig diskrete Werte, feste Sequenzlänge und Summeninvarianz behandelt – und ermöglichen so eine effektive Modellierung von Mengenverteilungen. Experimente demonstrieren die Überlegenheit unserer Methode in Bezug auf semantisch bewusste Darstellung und Generierungsqualität. Unsere Innovationen, die neuartige Darstellungs- und Modellierungsstrategien umfassen, bringen die visuelle Generierung über traditionelle sequenzielle Token-Paradigmen hinaus. Unser Code und unsere Modelle sind öffentlich verfügbar unter https://github.com/Gengzigang/TokenSet.

English

This paper proposes a fundamentally new paradigm for image generation through set-based tokenization and distribution modeling. Unlike conventional methods that serialize images into fixed-position latent codes with a uniform compression ratio, we introduce an unordered token set representation to dynamically allocate coding capacity based on regional semantic complexity. This TokenSet enhances global context aggregation and improves robustness against local perturbations. To address the critical challenge of modeling discrete sets, we devise a dual transformation mechanism that bijectively converts sets into fixed-length integer sequences with summation constraints. Further, we propose Fixed-Sum Discrete Diffusion--the first framework to simultaneously handle discrete values, fixed sequence length, and summation invariance--enabling effective set distribution modeling. Experiments demonstrate our method's superiority in semantic-aware representation and generation quality. Our innovations, spanning novel representation and modeling strategies, advance visual generation beyond traditional sequential token paradigms. Our code and models are publicly available at https://github.com/Gengzigang/TokenSet.

Bild als Menge tokenisieren

Tokenize Image as a Set

Zusammenfassung

Summary

Support