Generazione Visiva Autoregressiva Randomizzata
Randomized Autoregressive Visual Generation
November 1, 2024
Autori: Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Abstract
Questo articolo presenta il modello AutoRegressive Randomizzato (RAR) per la generazione visuale, che stabilisce una nuova prestazione all'avanguardia nel compito di generazione di immagini mantenendo piena compatibilità con i framework di modellazione del linguaggio. Il RAR proposto è semplice: durante un processo di addestramento autoregressivo standard con un obiettivo di previsione del token successivo, la sequenza di input - tipicamente ordinata in forma raster - viene permutata casualmente in diverse modalità di fattorizzazione con una probabilità r, dove r parte da 1 e diminuisce linearmente a 0 nel corso dell'addestramento. Questa strategia di addestramento di ricottura consente al modello di imparare a massimizzare la probabilità attesa su tutte le modalità di fattorizzazione e quindi migliorare efficacemente la capacità del modello di modellare contesti bidirezionali. È importante notare che il RAR preserva l'integrità del framework di modellazione autoregressiva, garantendo piena compatibilità con la modellazione del linguaggio migliorando significativamente le prestazioni nella generazione di immagini. Sul benchmark ImageNet-256, il RAR raggiunge un punteggio FID di 1.48, superando non solo i precedenti generatori di immagini autoregressivi all'avanguardia, ma anche i principali metodi basati sulla diffusione e sui trasformatori mascherati. Il codice e i modelli saranno resi disponibili su https://github.com/bytedance/1d-tokenizer
English
This paper presents Randomized AutoRegressive modeling (RAR) for visual
generation, which sets a new state-of-the-art performance on the image
generation task while maintaining full compatibility with language modeling
frameworks. The proposed RAR is simple: during a standard autoregressive
training process with a next-token prediction objective, the input
sequence-typically ordered in raster form-is randomly permuted into different
factorization orders with a probability r, where r starts at 1 and linearly
decays to 0 over the course of training. This annealing training strategy
enables the model to learn to maximize the expected likelihood over all
factorization orders and thus effectively improve the model's capability of
modeling bidirectional contexts. Importantly, RAR preserves the integrity of
the autoregressive modeling framework, ensuring full compatibility with
language modeling while significantly improving performance in image
generation. On the ImageNet-256 benchmark, RAR achieves an FID score of 1.48,
not only surpassing prior state-of-the-art autoregressive image generators but
also outperforming leading diffusion-based and masked transformer-based
methods. Code and models will be made available at
https://github.com/bytedance/1d-tokenizerSummary
AI-Generated Summary