La GAN è morta; lunga vita alla GAN! Un Baseline Moderno delle GAN
The GAN is dead; long live the GAN! A Modern GAN Baseline
January 9, 2025
Autori: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI
Abstract
Esiste un'ampia affermazione diffusa che le GAN siano difficili da addestrare e le architetture GAN presenti in letteratura siano disseminate di trucchi empirici. Forniamo prove contrarie a questa affermazione e costruiamo una base GAN moderna in modo più metodico. In primo luogo, deriviamo una perdita regolarizzata relativistica per le GAN ben comportata che affronta problemi di caduta delle modalità e mancata convergenza che in passato venivano affrontati tramite un insieme di trucchi ad hoc. Analizziamo matematicamente la nostra perdita e dimostriamo che ammette garanzie di convergenza locale, a differenza della maggior parte delle perdite relativistiche esistenti. In secondo luogo, la nostra nuova perdita ci consente di eliminare tutti i trucchi ad hoc e sostituire le strutture di base obsolete utilizzate nelle GAN comuni con architetture moderne. Utilizzando StyleGAN2 come esempio, presentiamo una roadmap di semplificazione e modernizzazione che porta a una nuova base minimalista - R3GAN. Nonostante la sua semplicità, il nostro approccio supera StyleGAN2 sui dataset FFHQ, ImageNet, CIFAR e Stacked MNIST, e si confronta favorevolmente con le GAN all'avanguardia e i modelli di diffusione.
English
There is a widely-spread claim that GANs are difficult to train, and GAN
architectures in the literature are littered with empirical tricks. We provide
evidence against this claim and build a modern GAN baseline in a more
principled manner. First, we derive a well-behaved regularized relativistic GAN
loss that addresses issues of mode dropping and non-convergence that were
previously tackled via a bag of ad-hoc tricks. We analyze our loss
mathematically and prove that it admits local convergence guarantees, unlike
most existing relativistic losses. Second, our new loss allows us to discard
all ad-hoc tricks and replace outdated backbones used in common GANs with
modern architectures. Using StyleGAN2 as an example, we present a roadmap of
simplification and modernization that results in a new minimalist baseline --
R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ,
ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against
state-of-the-art GANs and diffusion models.Summary
AI-Generated Summary