Demokratisierung von Text-zu-Bild Masken-gesteuerten Generativen Modellen mit kompakten textbewussten eindimensionalen Tokens.

Zusammenfassung

Bild-Tokenisierer bilden das Fundament moderner text-zu-Bild-generierender Modelle, sind jedoch berüchtigt schwer zu trainieren. Darüber hinaus stützen sich die meisten bestehenden Text-zu-Bild-Modelle auf umfangreiche, hochwertige private Datensätze, was ihre Reproduzierbarkeit erschwert. In dieser Arbeit stellen wir den Text-Aware Transformer-basierten 1-Dimensional Tokenizer (TA-TiTok) vor, einen effizienten und leistungsstarken Bild-Tokenisierer, der entweder diskrete oder kontinuierliche 1-dimensionale Tokens nutzen kann. TA-TiTok integriert auf einzigartige Weise textuelle Informationen während der Tokenizer-Decodierungsphase (d. h. der Ent-Tokenisierung), was die Konvergenz beschleunigt und die Leistung verbessert. TA-TiTok profitiert auch von einem vereinfachten, aber effektiven Ein-Stufen-Trainingsprozess, der die Notwendigkeit für die komplexe zweistufige Destillation, die bei früheren 1-dimensionalen Tokenisierern verwendet wurde, beseitigt. Dieses Design ermöglicht eine nahtlose Skalierbarkeit auf große Datensätze. Aufbauend darauf stellen wir eine Familie von Text-zu-Bild Masked Generative Models (MaskGen) vor, die ausschließlich auf offenen Daten trainiert werden und vergleichbare Leistungen wie Modelle erzielen, die auf privaten Daten trainiert wurden. Unser Ziel ist es, sowohl die effizienten, leistungsstarken TA-TiTok-Tokenisierer als auch die offenen Daten und Gewichte verwendenden MaskGen-Modelle zu veröffentlichen, um den breiteren Zugang zu fördern und das Feld der text-zu-Bild Masked Generative Models zu demokratisieren.

English

Image tokenizers form the foundation of modern text-to-image generative models but are notoriously difficult to train. Furthermore, most existing text-to-image models rely on large-scale, high-quality private datasets, making them challenging to replicate. In this work, we introduce Text-Aware Transformer-based 1-Dimensional Tokenizer (TA-TiTok), an efficient and powerful image tokenizer that can utilize either discrete or continuous 1-dimensional tokens. TA-TiTok uniquely integrates textual information during the tokenizer decoding stage (i.e., de-tokenization), accelerating convergence and enhancing performance. TA-TiTok also benefits from a simplified, yet effective, one-stage training process, eliminating the need for the complex two-stage distillation used in previous 1-dimensional tokenizers. This design allows for seamless scalability to large datasets. Building on this, we introduce a family of text-to-image Masked Generative Models (MaskGen), trained exclusively on open data while achieving comparable performance to models trained on private data. We aim to release both the efficient, strong TA-TiTok tokenizers and the open-data, open-weight MaskGen models to promote broader access and democratize the field of text-to-image masked generative models.

Demokratisierung von Text-zu-Bild Masken-gesteuerten Generativen Modellen mit kompakten textbewussten eindimensionalen Tokens.

Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens

Zusammenfassung

Support