I Flussi Normalizzanti sono Modelli Generativi Capacità.
Normalizing Flows are Capable Generative Models
December 9, 2024
Autori: Shuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind
cs.AI
Abstract
I Flussi Normalizzanti (NF) sono modelli basati sulla verosimiglianza per input continui. Hanno dimostrato risultati promettenti sia nella stima della densità che nei compiti di modellazione generativa, ma hanno ricevuto relativamente poco attenzione negli ultimi anni. In questo lavoro, dimostriamo che i NF sono più potenti di quanto si credesse in precedenza. Presentiamo TarFlow: un'architettura semplice e scalabile che consente modelli NF ad alte prestazioni. TarFlow può essere considerato come una variante basata su Transformer di Flussi Autoregressivi Mascherati (MAF): consiste in una serie di blocchi autoregressivi Transformer su patch di immagini, alternando la direzione dell'autoregressione tra i livelli. TarFlow è semplice da addestrare end-to-end e in grado di modellare e generare direttamente pixel. Proponiamo inoltre tre tecniche chiave per migliorare la qualità del campione: l'aggiunta di rumore gaussiano durante l'addestramento, una procedura di denoising post-addestramento e un efficace metodo di guida sia per impostazioni condizionate alla classe che incondizionate. Mettendo insieme questi elementi, TarFlow stabilisce nuovi risultati di stato dell'arte nella stima della verosimiglianza per le immagini, superando i metodi precedenti di gran lunga, e genera campioni con qualità e diversità paragonabili ai modelli di diffusione, per la prima volta con un modello NF autonomo. Mettiamo a disposizione il nostro codice su https://github.com/apple/ml-tarflow.
English
Normalizing Flows (NFs) are likelihood-based models for continuous inputs.
They have demonstrated promising results on both density estimation and
generative modeling tasks, but have received relatively little attention in
recent years. In this work, we demonstrate that NFs are more powerful than
previously believed. We present TarFlow: a simple and scalable architecture
that enables highly performant NF models. TarFlow can be thought of as a
Transformer-based variant of Masked Autoregressive Flows (MAFs): it consists of
a stack of autoregressive Transformer blocks on image patches, alternating the
autoregression direction between layers. TarFlow is straightforward to train
end-to-end, and capable of directly modeling and generating pixels. We also
propose three key techniques to improve sample quality: Gaussian noise
augmentation during training, a post training denoising procedure, and an
effective guidance method for both class-conditional and unconditional
settings. Putting these together, TarFlow sets new state-of-the-art results on
likelihood estimation for images, beating the previous best methods by a large
margin, and generates samples with quality and diversity comparable to
diffusion models, for the first time with a stand-alone NF model. We make our
code available at https://github.com/apple/ml-tarflow.Summary
AI-Generated Summary