Demokratisierung von Text-zu-Bild Masken-gesteuerten Generativen Modellen mit kompakten textbewussten eindimensionalen Tokens.
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens
January 13, 2025
Autoren: Dongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen
cs.AI
Zusammenfassung
Bild-Tokenisierer bilden das Fundament moderner text-zu-Bild-generierender Modelle, sind jedoch berüchtigt schwer zu trainieren. Darüber hinaus stützen sich die meisten bestehenden Text-zu-Bild-Modelle auf umfangreiche, hochwertige private Datensätze, was ihre Reproduzierbarkeit erschwert. In dieser Arbeit stellen wir den Text-Aware Transformer-basierten 1-Dimensional Tokenizer (TA-TiTok) vor, einen effizienten und leistungsstarken Bild-Tokenisierer, der entweder diskrete oder kontinuierliche 1-dimensionale Tokens nutzen kann. TA-TiTok integriert auf einzigartige Weise textuelle Informationen während der Tokenizer-Decodierungsphase (d. h. der Ent-Tokenisierung), was die Konvergenz beschleunigt und die Leistung verbessert. TA-TiTok profitiert auch von einem vereinfachten, aber effektiven Ein-Stufen-Trainingsprozess, der die Notwendigkeit für die komplexe zweistufige Destillation, die bei früheren 1-dimensionalen Tokenisierern verwendet wurde, beseitigt. Dieses Design ermöglicht eine nahtlose Skalierbarkeit auf große Datensätze. Aufbauend darauf stellen wir eine Familie von Text-zu-Bild Masked Generative Models (MaskGen) vor, die ausschließlich auf offenen Daten trainiert werden und vergleichbare Leistungen wie Modelle erzielen, die auf privaten Daten trainiert wurden. Unser Ziel ist es, sowohl die effizienten, leistungsstarken TA-TiTok-Tokenisierer als auch die offenen Daten und Gewichte verwendenden MaskGen-Modelle zu veröffentlichen, um den breiteren Zugang zu fördern und das Feld der text-zu-Bild Masked Generative Models zu demokratisieren.
English
Image tokenizers form the foundation of modern text-to-image generative
models but are notoriously difficult to train. Furthermore, most existing
text-to-image models rely on large-scale, high-quality private datasets, making
them challenging to replicate. In this work, we introduce Text-Aware
Transformer-based 1-Dimensional Tokenizer (TA-TiTok), an efficient and powerful
image tokenizer that can utilize either discrete or continuous 1-dimensional
tokens. TA-TiTok uniquely integrates textual information during the tokenizer
decoding stage (i.e., de-tokenization), accelerating convergence and enhancing
performance. TA-TiTok also benefits from a simplified, yet effective, one-stage
training process, eliminating the need for the complex two-stage distillation
used in previous 1-dimensional tokenizers. This design allows for seamless
scalability to large datasets. Building on this, we introduce a family of
text-to-image Masked Generative Models (MaskGen), trained exclusively on open
data while achieving comparable performance to models trained on private data.
We aim to release both the efficient, strong TA-TiTok tokenizers and the
open-data, open-weight MaskGen models to promote broader access and democratize
the field of text-to-image masked generative models.Summary
AI-Generated Summary