A GAN está morta; viva a GAN! Uma Linha de Base Moderna para GANs

The GAN is dead; long live the GAN! A Modern GAN Baseline

January 9, 2025
Autores: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI

Resumo

Existe uma alegação amplamente difundida de que as GANs são difíceis de treinar, e as arquiteturas de GAN na literatura estão repletas de truques empíricos. Apresentamos evidências contra essa alegação e construímos uma linha de base moderna de GAN de maneira mais fundamentada. Primeiramente, derivamos uma perda regularizada relativística bem-comportada que aborda questões de eliminação de modos e falta de convergência que foram anteriormente resolvidas por meio de um conjunto de truques ad hoc. Analisamos matematicamente nossa perda e demonstramos que ela admite garantias de convergência local, ao contrário da maioria das perdas relativísticas existentes. Em segundo lugar, nossa nova perda nos permite descartar todos os truques ad hoc e substituir espinhas dorsais desatualizadas usadas em GANs comuns por arquiteturas modernas. Usando o StyleGAN2 como exemplo, apresentamos um roteiro de simplificação e modernização que resulta em uma nova linha de base minimalista - R3GAN. Apesar de ser simples, nossa abordagem supera o StyleGAN2 nos conjuntos de dados FFHQ, ImageNet, CIFAR e Stacked MNIST, e se compara favoravelmente aos GANs e modelos de difusão de ponta.
English
There is a widely-spread claim that GANs are difficult to train, and GAN architectures in the literature are littered with empirical tricks. We provide evidence against this claim and build a modern GAN baseline in a more principled manner. First, we derive a well-behaved regularized relativistic GAN loss that addresses issues of mode dropping and non-convergence that were previously tackled via a bag of ad-hoc tricks. We analyze our loss mathematically and prove that it admits local convergence guarantees, unlike most existing relativistic losses. Second, our new loss allows us to discard all ad-hoc tricks and replace outdated backbones used in common GANs with modern architectures. Using StyleGAN2 as an example, we present a roadmap of simplification and modernization that results in a new minimalist baseline -- R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ, ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against state-of-the-art GANs and diffusion models.

Summary

AI-Generated Summary

PDF775January 10, 2025