Bild als Menge tokenisieren
Tokenize Image as a Set
March 20, 2025
Autoren: Zigang Geng, Mengde Xu, Han Hu, Shuyang Gu
cs.AI
Zusammenfassung
Dieses Papier schlägt ein grundlegend neues Paradigma für die Bildgenerierung durch mengenbasierte Tokenisierung und Verteilungsmodellierung vor. Im Gegensatz zu konventionellen Methoden, die Bilder in festpositionierte latente Codes mit einem einheitlichen Kompressionsverhältnis serialisieren, führen wir eine ungeordnete Token-Mengen-Darstellung ein, die die Kodierungskapazität dynamisch basierend auf der regionalen semantischen Komplexität zuweist. Diese TokenSet-Methode verbessert die Aggregation des globalen Kontexts und erhöht die Robustheit gegenüber lokalen Störungen. Um die entscheidende Herausforderung der Modellierung diskreter Mengen zu bewältigen, entwickeln wir einen dualen Transformationsmechanismus, der Mengen bijektiv in festlängige Integer-Sequenzen mit Summationsbeschränkungen umwandelt. Darüber hinaus schlagen wir Fixed-Sum Discrete Diffusion vor – das erste Framework, das gleichzeitig diskrete Werte, feste Sequenzlänge und Summeninvarianz behandelt – und ermöglichen so eine effektive Modellierung von Mengenverteilungen. Experimente demonstrieren die Überlegenheit unserer Methode in Bezug auf semantisch bewusste Darstellung und Generierungsqualität. Unsere Innovationen, die neuartige Darstellungs- und Modellierungsstrategien umfassen, bringen die visuelle Generierung über traditionelle sequenzielle Token-Paradigmen hinaus. Unser Code und unsere Modelle sind öffentlich verfügbar unter https://github.com/Gengzigang/TokenSet.
English
This paper proposes a fundamentally new paradigm for image generation through
set-based tokenization and distribution modeling. Unlike conventional methods
that serialize images into fixed-position latent codes with a uniform
compression ratio, we introduce an unordered token set representation to
dynamically allocate coding capacity based on regional semantic complexity.
This TokenSet enhances global context aggregation and improves robustness
against local perturbations. To address the critical challenge of modeling
discrete sets, we devise a dual transformation mechanism that bijectively
converts sets into fixed-length integer sequences with summation constraints.
Further, we propose Fixed-Sum Discrete Diffusion--the first framework to
simultaneously handle discrete values, fixed sequence length, and summation
invariance--enabling effective set distribution modeling. Experiments
demonstrate our method's superiority in semantic-aware representation and
generation quality. Our innovations, spanning novel representation and modeling
strategies, advance visual generation beyond traditional sequential token
paradigms. Our code and models are publicly available at
https://github.com/Gengzigang/TokenSet.Summary
AI-Generated Summary