За пределами следующего токена: предсказание следующего X для авторегрессивной визуальной генерации.
Beyond Next-Token: Next-X Prediction for Autoregressive Visual Generation
February 27, 2025
Авторы: Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
cs.AI
Аннотация
Моделирование авторегрессии (AR), известное своей парадигмой предсказания следующего токена, лежит в основе передовых языковых и визуальных генеративных моделей. Традиционно "токен" рассматривается как наименьшая единица предсказания, часто дискретный символ в языке или квантованный участок визуального изображения. Однако оптимальное определение токена для 2D структур изображения остается открытым вопросом. Кроме того, модели AR страдают от смещения экспозиции, где обучение с принуждением учителя приводит к накоплению ошибок при выводе. В данной статье мы предлагаем xAR, обобщенную AR структуру, которая расширяет понятие токена до сущности X, которая может представлять собой индивидуальный участок токена, ячейку (k раз k группировку соседних участков), подвыборку (нелокальную группировку далеких участков), масштаб (грубое качество к более точному), или даже целое изображение. Кроме того, мы переформулируем классификацию дискретных токенов как непрерывную регрессию сущностей, используя методы сопоставления потоков на каждом шаге AR. Этот подход условия обучения на шумных сущностях вместо истинных токенов, что приводит к эффективному смягчению смещения экспозиции. В результате xAR предлагает два ключевых преимущества: (1) он обеспечивает гибкие единицы предсказания, которые захватывают различную контекстуальную гранулярность и пространственные структуры, и (2) он смягчает смещение экспозиции, избегая зависимости от обучения с принуждением учителя. На бенчмарке генерации ImageNet-256 наша базовая модель, xAR-B (172M), превосходит DiT-XL/SiT-XL (675M), обеспечивая при этом в 20 раз более быстрый вывод. Тем временем, xAR-H устанавливает новый передовой уровень с FID 1.24, работая в 2.2 раза быстрее, чем предыдущая лучшая модель без использования модулей визуального фундамента (например, DINOv2) или продвинутой интервальной выборки направляющих.
English
Autoregressive (AR) modeling, known for its next-token prediction paradigm,
underpins state-of-the-art language and visual generative models.
Traditionally, a ``token'' is treated as the smallest prediction unit, often a
discrete symbol in language or a quantized patch in vision. However, the
optimal token definition for 2D image structures remains an open question.
Moreover, AR models suffer from exposure bias, where teacher forcing during
training leads to error accumulation at inference. In this paper, we propose
xAR, a generalized AR framework that extends the notion of a token to an entity
X, which can represent an individual patch token, a cell (a ktimes k
grouping of neighboring patches), a subsample (a non-local grouping of distant
patches), a scale (coarse-to-fine resolution), or even a whole image.
Additionally, we reformulate discrete token classification as
continuous entity regression, leveraging flow-matching methods at each
AR step. This approach conditions training on noisy entities instead of ground
truth tokens, leading to Noisy Context Learning, which effectively alleviates
exposure bias. As a result, xAR offers two key advantages: (1) it enables
flexible prediction units that capture different contextual granularity and
spatial structures, and (2) it mitigates exposure bias by avoiding reliance on
teacher forcing. On ImageNet-256 generation benchmark, our base model, xAR-B
(172M), outperforms DiT-XL/SiT-XL (675M) while achieving 20times faster
inference. Meanwhile, xAR-H sets a new state-of-the-art with an FID of 1.24,
running 2.2times faster than the previous best-performing model without
relying on vision foundation modules (\eg, DINOv2) or advanced guidance
interval sampling.Summary
AI-Generated Summary