ChatPaper.aiChatPaper

PixelFlow: Modelli Generativi nello Spazio dei Pixel con Flusso

PixelFlow: Pixel-Space Generative Models with Flow

April 10, 2025
Autori: Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo
cs.AI

Abstract

Presentiamo PixelFlow, una famiglia di modelli di generazione di immagini che operano direttamente nello spazio dei pixel grezzi, in contrasto con i modelli predominanti che lavorano nello spazio latente. Questo approccio semplifica il processo di generazione delle immagini eliminando la necessità di un Variational Autoencoder (VAE) pre-addestrato e rendendo l'intero modello addestrabile end-to-end. Attraverso una modellazione efficiente a flusso a cascata, PixelFlow raggiunge un costo computazionale accessibile nello spazio dei pixel. Ottiene un FID di 1.98 nel benchmark di generazione di immagini condizionate per classe su ImageNet a risoluzione 256x256. I risultati qualitativi di generazione di immagini da testo dimostrano che PixelFlow eccelle in qualità dell'immagine, artisticità e controllo semantico. Speriamo che questo nuovo paradigma possa ispirare e aprire nuove opportunità per i modelli di generazione visiva di prossima generazione. Codice e modelli sono disponibili all'indirizzo https://github.com/ShoufaChen/PixelFlow.
English
We present PixelFlow, a family of image generation models that operate directly in the raw pixel space, in contrast to the predominant latent-space models. This approach simplifies the image generation process by eliminating the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow achieves affordable computation cost in pixel space. It achieves an FID of 1.98 on 256times256 ImageNet class-conditional image generation benchmark. The qualitative text-to-image results demonstrate that PixelFlow excels in image quality, artistry, and semantic control. We hope this new paradigm will inspire and open up new opportunities for next-generation visual generation models. Code and models are available at https://github.com/ShoufaChen/PixelFlow.

Summary

AI-Generated Summary

PDF156April 14, 2025