コンパクトなテキスト感知型一次元トークンを用いたテキストから画像へのマスク生成モデルの民主化
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens
January 13, 2025
著者: Dongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen
cs.AI
要旨
画像トークナイザーは現代のテキストから画像を生成するモデルの基盤を形成していますが、訓練が非常に難しいことで知られています。さらに、既存のテキストから画像へのモデルのほとんどは大規模で高品質な非公開データセットに依存しており、これらを複製することが困難です。本研究では、Text-Aware Transformerベースの1次元トークナイザー(TA-TiTok)を導入しました。これは、効率的かつ強力な画像トークナイザーであり、離散または連続した1次元トークンのいずれかを利用できます。TA-TiTokは、トークナイザーのデコード段階(すなわち、トークン化解除)中にテキスト情報を独自に統合し、収束を加速しパフォーマンスを向上させます。TA-TiTokは、前の1次元トークナイザーで使用されていた複雑な2段階の蒸留の必要性を排除する、簡素で効果的な1段階のトレーニングプロセスからも利益を得ています。この設計により、大規模データセットへのシームレスなスケーラビリティが可能となります。さらに、我々は、オープンデータのみを使用して訓練されたMasked Generative Models(MaskGen)のファミリーを紹介しています。これらのモデルは、非公開データで訓練されたモデルと同等のパフォーマンスを達成しながら、より広範なアクセスとテキストから画像のマスク生成モデルの分野を民主化するために、効率的で強力なTA-TiTokトークナイザーとオープンデータ、オープンウェイトのMaskGenモデルをリリースすることを目指しています。
English
Image tokenizers form the foundation of modern text-to-image generative
models but are notoriously difficult to train. Furthermore, most existing
text-to-image models rely on large-scale, high-quality private datasets, making
them challenging to replicate. In this work, we introduce Text-Aware
Transformer-based 1-Dimensional Tokenizer (TA-TiTok), an efficient and powerful
image tokenizer that can utilize either discrete or continuous 1-dimensional
tokens. TA-TiTok uniquely integrates textual information during the tokenizer
decoding stage (i.e., de-tokenization), accelerating convergence and enhancing
performance. TA-TiTok also benefits from a simplified, yet effective, one-stage
training process, eliminating the need for the complex two-stage distillation
used in previous 1-dimensional tokenizers. This design allows for seamless
scalability to large datasets. Building on this, we introduce a family of
text-to-image Masked Generative Models (MaskGen), trained exclusively on open
data while achieving comparable performance to models trained on private data.
We aim to release both the efficient, strong TA-TiTok tokenizers and the
open-data, open-weight MaskGen models to promote broader access and democratize
the field of text-to-image masked generative models.Summary
AI-Generated Summary