GANは死んだ;GAN万歳!モダンなGANベースライン

The GAN is dead; long live the GAN! A Modern GAN Baseline

January 9, 2025
著者: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI

要旨

GAN(Generative Adversarial Networks)のトレーニングが難しいという広く言われている主張があり、文献中のGANアーキテクチャには経験的なトリックが散見されます。私たちはこの主張に反証を提供し、より原則的な方法で現代のGANベースラインを構築します。まず、モードのドロップや非収束の問題に対処するよう以前にアドホックなトリックを用いていた、より適切な正則化された相対論的GAN損失を導出します。我々は数学的にこの損失を分析し、ほとんどの既存の相対論的損失とは異なり、局所収束の保証があることを証明します。第二に、新しい損失により、すべてのアドホックなトリックを廃止し、一般的なGANで使用されていた時代遅れのバックボーンを現代のアーキテクチャに置き換えることができます。StyleGAN2を例に挙げながら、簡素化と現代化のロードマップを提示し、新しいミニマリストベースラインであるR3GANを実現します。シンプルであるにもかかわらず、私たちのアプローチはFFHQ、ImageNet、CIFAR、Stacked MNISTデータセットでStyleGAN2を上回り、最先端のGANや拡散モデルと比較して優れた結果を示します。
English
There is a widely-spread claim that GANs are difficult to train, and GAN architectures in the literature are littered with empirical tricks. We provide evidence against this claim and build a modern GAN baseline in a more principled manner. First, we derive a well-behaved regularized relativistic GAN loss that addresses issues of mode dropping and non-convergence that were previously tackled via a bag of ad-hoc tricks. We analyze our loss mathematically and prove that it admits local convergence guarantees, unlike most existing relativistic losses. Second, our new loss allows us to discard all ad-hoc tricks and replace outdated backbones used in common GANs with modern architectures. Using StyleGAN2 as an example, we present a roadmap of simplification and modernization that results in a new minimalist baseline -- R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ, ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against state-of-the-art GANs and diffusion models.

Summary

AI-Generated Summary

PDF775January 10, 2025