GANは死んだ;GAN万歳!モダンなGANベースライン
The GAN is dead; long live the GAN! A Modern GAN Baseline
January 9, 2025
著者: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI
要旨
GAN(Generative Adversarial Networks)のトレーニングが難しいという広く言われている主張があり、文献中のGANアーキテクチャには経験的なトリックが散見されます。私たちはこの主張に反証を提供し、より原則的な方法で現代のGANベースラインを構築します。まず、モードのドロップや非収束の問題に対処するよう以前にアドホックなトリックを用いていた、より適切な正則化された相対論的GAN損失を導出します。我々は数学的にこの損失を分析し、ほとんどの既存の相対論的損失とは異なり、局所収束の保証があることを証明します。第二に、新しい損失により、すべてのアドホックなトリックを廃止し、一般的なGANで使用されていた時代遅れのバックボーンを現代のアーキテクチャに置き換えることができます。StyleGAN2を例に挙げながら、簡素化と現代化のロードマップを提示し、新しいミニマリストベースラインであるR3GANを実現します。シンプルであるにもかかわらず、私たちのアプローチはFFHQ、ImageNet、CIFAR、Stacked MNISTデータセットでStyleGAN2を上回り、最先端のGANや拡散モデルと比較して優れた結果を示します。
English
There is a widely-spread claim that GANs are difficult to train, and GAN
architectures in the literature are littered with empirical tricks. We provide
evidence against this claim and build a modern GAN baseline in a more
principled manner. First, we derive a well-behaved regularized relativistic GAN
loss that addresses issues of mode dropping and non-convergence that were
previously tackled via a bag of ad-hoc tricks. We analyze our loss
mathematically and prove that it admits local convergence guarantees, unlike
most existing relativistic losses. Second, our new loss allows us to discard
all ad-hoc tricks and replace outdated backbones used in common GANs with
modern architectures. Using StyleGAN2 as an example, we present a roadmap of
simplification and modernization that results in a new minimalist baseline --
R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ,
ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against
state-of-the-art GANs and diffusion models.Summary
AI-Generated Summary