SNOOPI: Distillazione a diffusione supercaricata in un passaggio con guida adeguata
SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance
December 3, 2024
Autori: Viet Nguyen, Anh Aengus Nguyen, Trung Dao, Khoi Nguyen, Cuong Pham, Toan Tran, Anh Tran
cs.AI
Abstract
Approcci recenti hanno prodotto risultati promettenti nella distillazione di modelli di diffusione testo-immagine multi-step in modelli monopasso. La tecnica di distillazione efficiente all'avanguardia, cioè SwiftBrushv2 (SBv2), addirittura supera le prestazioni del modello di riferimento con risorse limitate. Tuttavia, il nostro studio rivela la sua instabilità nel gestire diverse strutture di modelli di diffusione a causa dell'utilizzo di una scala guida fissa all'interno della perdita di distillazione del punteggio variazionale (VSD). Un'altra debolezza dei modelli di diffusione monopasso esistenti è la mancanza di supporto per la guida negativa dei prompt, che è cruciale nella generazione pratica di immagini. Questo articolo presenta SNOOPI, un nuovo framework progettato per affrontare queste limitazioni potenziando la guida nei modelli di diffusione monopasso durante sia l'addestramento che l'inferenza. Prima di tutto, miglioriamo efficacemente la stabilità dell'addestramento attraverso Proper Guidance-SwiftBrush (PG-SB), che utilizza un approccio di guida senza classificatore a scala casuale. Variando la scala di guida di entrambi i modelli di riferimento, ampliamo le loro distribuzioni di output, ottenendo una perdita VSD più robusta che consente a SB di operare efficacemente su diverse strutture mentre mantiene prestazioni competitive. In secondo luogo, proponiamo un metodo senza addestramento chiamato Negative-Away Steer Attention (NASA), che integra prompt negativi nei modelli di diffusione monopasso tramite cross-attenzione per sopprimere elementi indesiderati nelle immagini generate. I nostri risultati sperimentali mostrano che i nostri metodi proposti migliorano significativamente i modelli di base su varie metriche. Notevolmente, raggiungiamo un punteggio HPSv2 di 31.08, stabilendo un nuovo benchmark all'avanguardia per i modelli di diffusione monopasso.
English
Recent approaches have yielded promising results in distilling multi-step
text-to-image diffusion models into one-step ones. The state-of-the-art
efficient distillation technique, i.e., SwiftBrushv2 (SBv2), even surpasses the
teacher model's performance with limited resources. However, our study reveals
its instability when handling different diffusion model backbones due to using
a fixed guidance scale within the Variational Score Distillation (VSD) loss.
Another weakness of the existing one-step diffusion models is the missing
support for negative prompt guidance, which is crucial in practical image
generation. This paper presents SNOOPI, a novel framework designed to address
these limitations by enhancing the guidance in one-step diffusion models during
both training and inference. First, we effectively enhance training stability
through Proper Guidance-SwiftBrush (PG-SB), which employs a random-scale
classifier-free guidance approach. By varying the guidance scale of both
teacher models, we broaden their output distributions, resulting in a more
robust VSD loss that enables SB to perform effectively across diverse backbones
while maintaining competitive performance. Second, we propose a training-free
method called Negative-Away Steer Attention (NASA), which integrates negative
prompts into one-step diffusion models via cross-attention to suppress
undesired elements in generated images. Our experimental results show that our
proposed methods significantly improve baseline models across various metrics.
Remarkably, we achieve an HPSv2 score of 31.08, setting a new state-of-the-art
benchmark for one-step diffusion models.Summary
AI-Generated Summary