PixelFlow: Modelli Generativi nello Spazio dei Pixel con Flusso
PixelFlow: Pixel-Space Generative Models with Flow
April 10, 2025
Autori: Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
cs.AI
Abstract
Presentiamo PixelFlow, una famiglia di modelli di generazione di immagini che operano direttamente nello spazio dei pixel grezzi, in contrasto con i modelli predominanti che lavorano nello spazio latente. Questo approccio semplifica il processo di generazione delle immagini eliminando la necessità di un Variational Autoencoder (VAE) pre-addestrato e rendendo l'intero modello addestrabile end-to-end. Attraverso una modellazione efficiente a flusso a cascata, PixelFlow raggiunge un costo computazionale accessibile nello spazio dei pixel. Ottiene un FID di 1.98 nel benchmark di generazione di immagini condizionate per classe su ImageNet a risoluzione 256x256. I risultati qualitativi di generazione di immagini da testo dimostrano che PixelFlow eccelle in qualità dell'immagine, artisticità e controllo semantico. Speriamo che questo nuovo paradigma possa ispirare e aprire nuove opportunità per i modelli di generazione visiva di prossima generazione. Codice e modelli sono disponibili all'indirizzo https://github.com/ShoufaChen/PixelFlow.
English
We present PixelFlow, a family of image generation models that operate
directly in the raw pixel space, in contrast to the predominant latent-space
models. This approach simplifies the image generation process by eliminating
the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole
model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow
achieves affordable computation cost in pixel space. It achieves an FID of 1.98
on 256times256 ImageNet class-conditional image generation benchmark. The
qualitative text-to-image results demonstrate that PixelFlow excels in image
quality, artistry, and semantic control. We hope this new paradigm will inspire
and open up new opportunities for next-generation visual generation models.
Code and models are available at https://github.com/ShoufaChen/PixelFlow.Summary
AI-Generated Summary