Democratizando Modelos Generativos de Máscara Texto-para-Imagem com Tokens Unidimensionais Compactos Conscientes do Texto.

Resumo

Os tokenizadores de imagem formam a base dos modelos generativos modernos de texto para imagem, mas são notoriamente difíceis de treinar. Além disso, a maioria dos modelos existentes de texto para imagem dependem de conjuntos de dados privados em grande escala e de alta qualidade, tornando-os desafiadores de replicar. Neste trabalho, apresentamos o Tokenizador 1-Dimensional Baseado em Transformer Consciente de Texto (TA-TiTok), um tokenizador de imagem eficiente e poderoso que pode utilizar tokens 1-dimensionais discretos ou contínuos. O TA-TiTok integra de forma única informações textuais durante a etapa de decodificação do tokenizador (ou seja, de-tokenização), acelerando a convergência e aprimorando o desempenho. O TA-TiTok também se beneficia de um processo de treinamento simplificado, porém eficaz, de um estágio único, eliminando a necessidade da complexa destilação em dois estágios usada nos tokenizadores 1-dimensionais anteriores. Esse design permite uma escalabilidade perfeita para grandes conjuntos de dados. Com base nisso, apresentamos uma família de Modelos Generativos Mascaramentos de Texto para Imagem (MaskGen), treinados exclusivamente em dados abertos, enquanto alcançam desempenho comparável aos modelos treinados em dados privados. Nosso objetivo é disponibilizar tanto os tokenizadores TA-TiTok eficientes e robustos quanto os modelos MaskGen de dados abertos e pesos abertos para promover um acesso mais amplo e democratizar o campo dos modelos generativos mascarados de texto para imagem.

English

Image tokenizers form the foundation of modern text-to-image generative models but are notoriously difficult to train. Furthermore, most existing text-to-image models rely on large-scale, high-quality private datasets, making them challenging to replicate. In this work, we introduce Text-Aware Transformer-based 1-Dimensional Tokenizer (TA-TiTok), an efficient and powerful image tokenizer that can utilize either discrete or continuous 1-dimensional tokens. TA-TiTok uniquely integrates textual information during the tokenizer decoding stage (i.e., de-tokenization), accelerating convergence and enhancing performance. TA-TiTok also benefits from a simplified, yet effective, one-stage training process, eliminating the need for the complex two-stage distillation used in previous 1-dimensional tokenizers. This design allows for seamless scalability to large datasets. Building on this, we introduce a family of text-to-image Masked Generative Models (MaskGen), trained exclusively on open data while achieving comparable performance to models trained on private data. We aim to release both the efficient, strong TA-TiTok tokenizers and the open-data, open-weight MaskGen models to promote broader access and democratize the field of text-to-image masked generative models.

Democratizando Modelos Generativos de Máscara Texto-para-Imagem com Tokens Unidimensionais Compactos Conscientes do Texto.

Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens

Resumo

Support