Generazione Visiva Autoregressiva Randomizzata

Randomized Autoregressive Visual Generation

November 1, 2024
Autori: Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
cs.AI

Abstract

Questo articolo presenta il modello AutoRegressive Randomizzato (RAR) per la generazione visuale, che stabilisce una nuova prestazione all'avanguardia nel compito di generazione di immagini mantenendo piena compatibilità con i framework di modellazione del linguaggio. Il RAR proposto è semplice: durante un processo di addestramento autoregressivo standard con un obiettivo di previsione del token successivo, la sequenza di input - tipicamente ordinata in forma raster - viene permutata casualmente in diverse modalità di fattorizzazione con una probabilità r, dove r parte da 1 e diminuisce linearmente a 0 nel corso dell'addestramento. Questa strategia di addestramento di ricottura consente al modello di imparare a massimizzare la probabilità attesa su tutte le modalità di fattorizzazione e quindi migliorare efficacemente la capacità del modello di modellare contesti bidirezionali. È importante notare che il RAR preserva l'integrità del framework di modellazione autoregressiva, garantendo piena compatibilità con la modellazione del linguaggio migliorando significativamente le prestazioni nella generazione di immagini. Sul benchmark ImageNet-256, il RAR raggiunge un punteggio FID di 1.48, superando non solo i precedenti generatori di immagini autoregressivi all'avanguardia, ma anche i principali metodi basati sulla diffusione e sui trasformatori mascherati. Il codice e i modelli saranno resi disponibili su https://github.com/bytedance/1d-tokenizer
English
This paper presents Randomized AutoRegressive modeling (RAR) for visual generation, which sets a new state-of-the-art performance on the image generation task while maintaining full compatibility with language modeling frameworks. The proposed RAR is simple: during a standard autoregressive training process with a next-token prediction objective, the input sequence-typically ordered in raster form-is randomly permuted into different factorization orders with a probability r, where r starts at 1 and linearly decays to 0 over the course of training. This annealing training strategy enables the model to learn to maximize the expected likelihood over all factorization orders and thus effectively improve the model's capability of modeling bidirectional contexts. Importantly, RAR preserves the integrity of the autoregressive modeling framework, ensuring full compatibility with language modeling while significantly improving performance in image generation. On the ImageNet-256 benchmark, RAR achieves an FID score of 1.48, not only surpassing prior state-of-the-art autoregressive image generators but also outperforming leading diffusion-based and masked transformer-based methods. Code and models will be made available at https://github.com/bytedance/1d-tokenizer

Summary

AI-Generated Summary

PDF173November 13, 2024