Democratizzazione dei modelli generativi mascherati testo-immagine con token unidimensionali compatti consapevoli del testo.
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens
January 13, 2025
Autori: Dongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen
cs.AI
Abstract
I tokenizzatori di immagini costituiscono la base dei moderni modelli generativi di testo-immagine, ma sono notoriamente difficili da addestrare. Inoltre, la maggior parte dei modelli testo-immagine esistenti si basa su set di dati privati di grandi dimensioni e di alta qualità, rendendoli difficili da replicare. In questo lavoro, presentiamo il Tokenizer 1-Dimensionale basato su Transformer consapevole del testo (TA-TiTok), un tokenizzatore di immagini efficiente e potente che può utilizzare token discreti o continui unidimensionali. TA-TiTok integra in modo unico le informazioni testuali durante la fase di decodifica del tokenizer (cioè, la de-tokenizzazione), accelerando la convergenza e migliorando le prestazioni. TA-TiTok beneficia anche di un processo di addestramento semplificato, ma efficace, a un solo stadio, eliminando la necessità della complessa distillazione a due stadi utilizzata nei precedenti tokenizzatori unidimensionali. Questo design consente una scalabilità senza soluzione di continuità a set di dati di grandi dimensioni. Sulla base di ciò, presentiamo una famiglia di Modelli Generativi Mascherati testo-immagine (MaskGen), addestrati esclusivamente su dati aperti pur raggiungendo prestazioni comparabili ai modelli addestrati su dati privati. Il nostro obiettivo è rilasciare sia i tokenizzatori TA-TiTok efficienti e potenti che i modelli MaskGen open-data e open-weight per promuovere un accesso più ampio e democratizzare il campo dei modelli generativi testo-immagine mascherati.
English
Image tokenizers form the foundation of modern text-to-image generative
models but are notoriously difficult to train. Furthermore, most existing
text-to-image models rely on large-scale, high-quality private datasets, making
them challenging to replicate. In this work, we introduce Text-Aware
Transformer-based 1-Dimensional Tokenizer (TA-TiTok), an efficient and powerful
image tokenizer that can utilize either discrete or continuous 1-dimensional
tokens. TA-TiTok uniquely integrates textual information during the tokenizer
decoding stage (i.e., de-tokenization), accelerating convergence and enhancing
performance. TA-TiTok also benefits from a simplified, yet effective, one-stage
training process, eliminating the need for the complex two-stage distillation
used in previous 1-dimensional tokenizers. This design allows for seamless
scalability to large datasets. Building on this, we introduce a family of
text-to-image Masked Generative Models (MaskGen), trained exclusively on open
data while achieving comparable performance to models trained on private data.
We aim to release both the efficient, strong TA-TiTok tokenizers and the
open-data, open-weight MaskGen models to promote broader access and democratize
the field of text-to-image masked generative models.Summary
AI-Generated Summary