Democratizando Modelos Generativos de Máscara Texto-para-Imagem com Tokens Unidimensionais Compactos Conscientes do Texto.
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens
January 13, 2025
Autores: Dongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen
cs.AI
Resumo
Os tokenizadores de imagem formam a base dos modelos generativos modernos de texto para imagem, mas são notoriamente difíceis de treinar. Além disso, a maioria dos modelos existentes de texto para imagem dependem de conjuntos de dados privados em grande escala e de alta qualidade, tornando-os desafiadores de replicar. Neste trabalho, apresentamos o Tokenizador 1-Dimensional Baseado em Transformer Consciente de Texto (TA-TiTok), um tokenizador de imagem eficiente e poderoso que pode utilizar tokens 1-dimensionais discretos ou contínuos. O TA-TiTok integra de forma única informações textuais durante a etapa de decodificação do tokenizador (ou seja, de-tokenização), acelerando a convergência e aprimorando o desempenho. O TA-TiTok também se beneficia de um processo de treinamento simplificado, porém eficaz, de um estágio único, eliminando a necessidade da complexa destilação em dois estágios usada nos tokenizadores 1-dimensionais anteriores. Esse design permite uma escalabilidade perfeita para grandes conjuntos de dados. Com base nisso, apresentamos uma família de Modelos Generativos Mascaramentos de Texto para Imagem (MaskGen), treinados exclusivamente em dados abertos, enquanto alcançam desempenho comparável aos modelos treinados em dados privados. Nosso objetivo é disponibilizar tanto os tokenizadores TA-TiTok eficientes e robustos quanto os modelos MaskGen de dados abertos e pesos abertos para promover um acesso mais amplo e democratizar o campo dos modelos generativos mascarados de texto para imagem.
English
Image tokenizers form the foundation of modern text-to-image generative
models but are notoriously difficult to train. Furthermore, most existing
text-to-image models rely on large-scale, high-quality private datasets, making
them challenging to replicate. In this work, we introduce Text-Aware
Transformer-based 1-Dimensional Tokenizer (TA-TiTok), an efficient and powerful
image tokenizer that can utilize either discrete or continuous 1-dimensional
tokens. TA-TiTok uniquely integrates textual information during the tokenizer
decoding stage (i.e., de-tokenization), accelerating convergence and enhancing
performance. TA-TiTok also benefits from a simplified, yet effective, one-stage
training process, eliminating the need for the complex two-stage distillation
used in previous 1-dimensional tokenizers. This design allows for seamless
scalability to large datasets. Building on this, we introduce a family of
text-to-image Masked Generative Models (MaskGen), trained exclusively on open
data while achieving comparable performance to models trained on private data.
We aim to release both the efficient, strong TA-TiTok tokenizers and the
open-data, open-weight MaskGen models to promote broader access and democratize
the field of text-to-image masked generative models.Summary
AI-Generated Summary