Демократизация моделей генерации изображений по тексту с масками с помощью компактных одномерных токенов, осведомленных о тексте.
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens
January 13, 2025
Авторы: Dongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen
cs.AI
Аннотация
Токенизаторы изображений являются основой современных генеративных моделей текста в изображение, но их сложно обучать. Более того, большинство существующих моделей текста в изображение полагаются на крупномасштабные, высококачественные частные наборы данных, что делает их трудными для воспроизведения. В данной работе мы представляем Text-Aware Трансформерный 1-мерный Токенизатор (TA-TiTok), эффективный и мощный токенизатор изображений, который может использовать как дискретные, так и непрерывные 1-мерные токены. TA-TiTok уникально интегрирует текстовую информацию на этапе декодирования токенизатора (т.е. де-токенизация), ускоряя сходимость и улучшая производительность. TA-TiTok также выигрывает от упрощенного, но эффективного одноэтапного процесса обучения, устраняя необходимость в сложной двухэтапной дистилляции, используемой в предыдущих 1-мерных токенизаторах. Этот дизайн позволяет легко масштабироваться на большие наборы данных. На основе этого мы представляем семейство Маскированных Генеративных Моделей текста в изображение (MaskGen), обученных исключительно на открытых данных, при этом достигая сопоставимой производительности с моделями, обученными на частных данных. Мы стремимся выпустить как эффективные и мощные токенизаторы TA-TiTok, так и модели MaskGen на открытых данных и с открытыми весами, чтобы способствовать более широкому доступу и демократизации области генеративных моделей текста в изображение с маскированием.
English
Image tokenizers form the foundation of modern text-to-image generative
models but are notoriously difficult to train. Furthermore, most existing
text-to-image models rely on large-scale, high-quality private datasets, making
them challenging to replicate. In this work, we introduce Text-Aware
Transformer-based 1-Dimensional Tokenizer (TA-TiTok), an efficient and powerful
image tokenizer that can utilize either discrete or continuous 1-dimensional
tokens. TA-TiTok uniquely integrates textual information during the tokenizer
decoding stage (i.e., de-tokenization), accelerating convergence and enhancing
performance. TA-TiTok also benefits from a simplified, yet effective, one-stage
training process, eliminating the need for the complex two-stage distillation
used in previous 1-dimensional tokenizers. This design allows for seamless
scalability to large datasets. Building on this, we introduce a family of
text-to-image Masked Generative Models (MaskGen), trained exclusively on open
data while achieving comparable performance to models trained on private data.
We aim to release both the efficient, strong TA-TiTok tokenizers and the
open-data, open-weight MaskGen models to promote broader access and democratize
the field of text-to-image masked generative models.Summary
AI-Generated Summary