ChatPaper.aiChatPaper

정규화 흐름은 능력 있는 생성 모델입니다.

Normalizing Flows are Capable Generative Models

December 9, 2024
저자: Shuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind
cs.AI

초록

정규화 흐름(Normalizing Flows, NFs)은 연속적인 입력에 대한 우도 기반 모델입니다. 이들은 밀도 추정과 생성 모델링 작업에서 유망한 결과를 보여주었지만, 최근 몇 년간 상대적으로 적은 관심을 받았습니다. 본 연구에서는 NFs가 이전에 생각했던 것보다 강력함을 입증합니다. 우리는 TarFlow를 제시합니다: 고성능 NF 모델을 가능하게 하는 간단하고 확장 가능한 아키텍처입니다. TarFlow는 이미지 패치 위에 자기 회귀적인 Transformer 블록의 스택으로 구성되며, 계층 간 자기 회귀 방향을 교대합니다. TarFlow는 end-to-end로 쉽게 훈련할 수 있으며, 픽셀을 직접 모델링하고 생성할 수 있습니다. 또한 훈련 중 가우시안 노이즈 증강, 훈련 후 잡음 제거 절차, 그리고 클래스 조건부 및 무조건적 설정에 대한 효과적인 안내 방법 세 가지를 제안합니다. 이러한 기법을 결합하여 TarFlow는 이미지에 대한 우도 추정에서 새로운 최고 성능을 달성하며, 이전 최고 방법을 크게 능가하는 결과를 보여줍니다. 또한 확산 모델과 유사한 품질과 다양성을 갖는 샘플을 생성하는데 성공하였습니다. 이는 독립적인 NF 모델로 처음으로 이루어진 것입니다. 우리의 코드는 https://github.com/apple/ml-tarflow에서 제공됩니다.
English
Normalizing Flows (NFs) are likelihood-based models for continuous inputs. They have demonstrated promising results on both density estimation and generative modeling tasks, but have received relatively little attention in recent years. In this work, we demonstrate that NFs are more powerful than previously believed. We present TarFlow: a simple and scalable architecture that enables highly performant NF models. TarFlow can be thought of as a Transformer-based variant of Masked Autoregressive Flows (MAFs): it consists of a stack of autoregressive Transformer blocks on image patches, alternating the autoregression direction between layers. TarFlow is straightforward to train end-to-end, and capable of directly modeling and generating pixels. We also propose three key techniques to improve sample quality: Gaussian noise augmentation during training, a post training denoising procedure, and an effective guidance method for both class-conditional and unconditional settings. Putting these together, TarFlow sets new state-of-the-art results on likelihood estimation for images, beating the previous best methods by a large margin, and generates samples with quality and diversity comparable to diffusion models, for the first time with a stand-alone NF model. We make our code available at https://github.com/apple/ml-tarflow.
PDF92December 13, 2024