La GAN è morta; lunga vita alla GAN! Un Baseline Moderno delle GAN

The GAN is dead; long live the GAN! A Modern GAN Baseline

January 9, 2025
Autori: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI

Abstract

Esiste un'ampia affermazione diffusa che le GAN siano difficili da addestrare e le architetture GAN presenti in letteratura siano disseminate di trucchi empirici. Forniamo prove contrarie a questa affermazione e costruiamo una base GAN moderna in modo più metodico. In primo luogo, deriviamo una perdita regolarizzata relativistica per le GAN ben comportata che affronta problemi di caduta delle modalità e mancata convergenza che in passato venivano affrontati tramite un insieme di trucchi ad hoc. Analizziamo matematicamente la nostra perdita e dimostriamo che ammette garanzie di convergenza locale, a differenza della maggior parte delle perdite relativistiche esistenti. In secondo luogo, la nostra nuova perdita ci consente di eliminare tutti i trucchi ad hoc e sostituire le strutture di base obsolete utilizzate nelle GAN comuni con architetture moderne. Utilizzando StyleGAN2 come esempio, presentiamo una roadmap di semplificazione e modernizzazione che porta a una nuova base minimalista - R3GAN. Nonostante la sua semplicità, il nostro approccio supera StyleGAN2 sui dataset FFHQ, ImageNet, CIFAR e Stacked MNIST, e si confronta favorevolmente con le GAN all'avanguardia e i modelli di diffusione.
English
There is a widely-spread claim that GANs are difficult to train, and GAN architectures in the literature are littered with empirical tricks. We provide evidence against this claim and build a modern GAN baseline in a more principled manner. First, we derive a well-behaved regularized relativistic GAN loss that addresses issues of mode dropping and non-convergence that were previously tackled via a bag of ad-hoc tricks. We analyze our loss mathematically and prove that it admits local convergence guarantees, unlike most existing relativistic losses. Second, our new loss allows us to discard all ad-hoc tricks and replace outdated backbones used in common GANs with modern architectures. Using StyleGAN2 as an example, we present a roadmap of simplification and modernization that results in a new minimalist baseline -- R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ, ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against state-of-the-art GANs and diffusion models.

Summary

AI-Generated Summary

PDF775January 10, 2025