ChatPaper.aiChatPaper

Прямая дискриминативная оптимизация: ваш правдоподобный визуальный генеративная модель на самом деле является дискриминатором GAN

Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator

March 3, 2025
Авторы: Kaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI

Аннотация

Хотя правдоподобие-ориентированные генеративные модели, в частности диффузионные и авторегрессионные модели, достигли впечатляющей точности в визуальной генерации, цель максимального правдоподобия (MLE) изначально страдает от склонности к покрытию мод, что ограничивает качество генерации при ограниченной емкости модели. В данной работе мы предлагаем Direct Discriminative Optimization (DDO) как унифицированную структуру, которая объединяет обучение генеративных моделей на основе правдоподобия с целью GAN, чтобы обойти это фундаментальное ограничение. Наше ключевое наблюдение заключается в параметризации дискриминатора неявно с использованием отношения правдоподобия между обучаемой целевой моделью и фиксированной эталонной моделью, проводя параллели с философией Direct Preference Optimization (DPO). В отличие от GAN, такая параметризация устраняет необходимость совместного обучения генератора и дискриминатора, позволяя проводить прямое, эффективное и результативное тонкое настраивание хорошо обученной модели для раскрытия ее полного потенциала за пределами ограничений MLE. DDO может выполняться итеративно в режиме самообучения для постепенного улучшения модели, причем каждый раунд требует менее 1% эпох предварительного обучения. Наши эксперименты демонстрируют эффективность DDO, значительно улучшая предыдущую SOTA диффузионную модель EDM, снижая показатели FID с 1.79/1.58 до новых рекордов 1.30/0.97 на наборах данных CIFAR-10/ImageNet-64, а также последовательно улучшая как FID без управления, так и FID с усилением CFG для визуальных авторегрессионных моделей на ImageNet 256×256.
English
While likelihood-based generative models, particularly diffusion and autoregressive models, have achieved remarkable fidelity in visual generation, the maximum likelihood estimation (MLE) objective inherently suffers from a mode-covering tendency that limits the generation quality under limited model capacity. In this work, we propose Direct Discriminative Optimization (DDO) as a unified framework that bridges likelihood-based generative training and the GAN objective to bypass this fundamental constraint. Our key insight is to parameterize a discriminator implicitly using the likelihood ratio between a learnable target model and a fixed reference model, drawing parallels with the philosophy of Direct Preference Optimization (DPO). Unlike GANs, this parameterization eliminates the need for joint training of generator and discriminator networks, allowing for direct, efficient, and effective finetuning of a well-trained model to its full potential beyond the limits of MLE. DDO can be performed iteratively in a self-play manner for progressive model refinement, with each round requiring less than 1% of pretraining epochs. Our experiments demonstrate the effectiveness of DDO by significantly advancing the previous SOTA diffusion model EDM, reducing FID scores from 1.79/1.58 to new records of 1.30/0.97 on CIFAR-10/ImageNet-64 datasets, and by consistently improving both guidance-free and CFG-enhanced FIDs of visual autoregressive models on ImageNet 256times256.

Summary

AI-Generated Summary

PDF22March 4, 2025