Effektive und effiziente Modelle für die maskierte Bildgenerierung
Effective and Efficient Masked Image Generation Models
March 10, 2025
Autoren: Zebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
cs.AI
Zusammenfassung
Obwohl Modelle zur Generierung maskierter Bilder und maskierte Diffusionsmodelle mit unterschiedlichen Motivationen und Zielen entwickelt wurden, stellen wir fest, dass sie innerhalb eines einzigen Frameworks vereinheitlicht werden können. Aufbauend auf dieser Erkenntnis untersuchen wir sorgfältig den Gestaltungsraum von Training und Sampling und identifizieren Schlüsselfaktoren, die sowohl zur Leistung als auch zur Effizienz beitragen. Basierend auf den während dieser Untersuchung beobachteten Verbesserungen entwickeln wir unser Modell, das als eMIGM bezeichnet wird. Empirisch zeigt eMIGM eine starke Leistung bei der Bildgenerierung auf ImageNet, gemessen an der Fréchet Inception Distance (FID). Insbesondere auf ImageNet 256x256 übertrifft eMIGM bei einer ähnlichen Anzahl von Funktionsauswertungen (NFEs) und Modellparametern das wegweisende VAR. Darüber hinaus erreicht eMIGM mit zunehmender NFE und Modellparametern eine Leistung, die mit den state-of-the-art kontinuierlichen Diffusionsmodellen vergleichbar ist, während weniger als 40% der NFE benötigt werden. Zusätzlich übertrifft eMIGM auf ImageNet 512x512 mit nur etwa 60% der NFE die state-of-the-art kontinuierlichen Diffusionsmodelle.
English
Although masked image generation models and masked diffusion models are
designed with different motivations and objectives, we observe that they can be
unified within a single framework. Building upon this insight, we carefully
explore the design space of training and sampling, identifying key factors that
contribute to both performance and efficiency. Based on the improvements
observed during this exploration, we develop our model, referred to as eMIGM.
Empirically, eMIGM demonstrates strong performance on ImageNet generation, as
measured by Fr\'echet Inception Distance (FID). In particular, on ImageNet
256x256, with similar number of function evaluations (NFEs) and model
parameters, eMIGM outperforms the seminal VAR. Moreover, as NFE and model
parameters increase, eMIGM achieves performance comparable to the
state-of-the-art continuous diffusion models while requiring less than 40% of
the NFE. Additionally, on ImageNet 512x512, with only about 60% of the NFE,
eMIGM outperforms the state-of-the-art continuous diffusion models.Summary
AI-Generated Summary