Skalenweise Destillation von Diffusionsmodellen
Scale-wise Distillation of Diffusion Models
March 20, 2025
Autoren: Nikita Starodubcev, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk
cs.AI
Zusammenfassung
Wir stellen SwD vor, ein skalierungsbasiertes Destillationsframework für Diffusionsmodelle (DMs), das die Idee der nächsten Skalenvorhersage effektiv für diffusionsbasierte Generatoren mit wenigen Schritten nutzt. Im Detail lässt sich SwD von den jüngsten Erkenntnissen inspirieren, die Diffusionsprozesse mit impliziter spektraler Autoregression in Verbindung bringen. Wir nehmen an, dass DMs die Generierung bei niedrigeren Datenauflösungen starten und die Proben bei jedem Denoising-Schritt schrittweise hochskalieren können, ohne an Leistung einzubüßen, während die Rechenkosten erheblich reduziert werden. SwD integriert diese Idee nahtlos in bestehende Diffusionsdestillationsmethoden, die auf Verteilungsabgleich basieren. Zudem erweitern wir die Familie der Verteilungsabgleichsansätze durch eine neuartige Patch-Loss-Funktion, die eine feinkörnigere Ähnlichkeit zur Zielverteilung erzwingt. Bei der Anwendung auf state-of-the-art Text-zu-Bild-Diffusionsmodelle nähert sich SwD den Inferenzzeiten von zwei Schritten in voller Auflösung und übertrifft die Vergleichsmodelle bei gleichem Rechenbudget deutlich, wie durch automatisierte Metriken und menschliche Präferenzstudien belegt wird.
English
We present SwD, a scale-wise distillation framework for diffusion models
(DMs), which effectively employs next-scale prediction ideas for
diffusion-based few-step generators. In more detail, SwD is inspired by the
recent insights relating diffusion processes to the implicit spectral
autoregression. We suppose that DMs can initiate generation at lower data
resolutions and gradually upscale the samples at each denoising step without
loss in performance while significantly reducing computational costs. SwD
naturally integrates this idea into existing diffusion distillation methods
based on distribution matching. Also, we enrich the family of distribution
matching approaches by introducing a novel patch loss enforcing finer-grained
similarity to the target distribution. When applied to state-of-the-art
text-to-image diffusion models, SwD approaches the inference times of two full
resolution steps and significantly outperforms the counterparts under the same
computation budget, as evidenced by automated metrics and human preference
studies.Summary
AI-Generated Summary