Effiziente Destillation von Classifier-Free Guidance mit Adaptern

Zusammenfassung

Während die klassifikatorfreie Führung (Classifier-Free Guidance, CFG) für bedingte Diffusionsmodelle unerlässlich ist, verdoppelt sie die Anzahl der neuronalen Funktionsauswertungen (Neural Function Evaluations, NFEs) pro Inferenzschritt. Um diese Ineffizienz zu mindern, führen wir die Adapter-Führungsdestillation (Adapter Guidance Distillation, AGD) ein, einen neuartigen Ansatz, der CFG in einem einzigen Vorwärtsdurchlauf simuliert. AGD nutzt leichtgewichtige Adapter, um CFG zu approximieren, wodurch die Abtastgeschwindigkeit effektiv verdoppelt wird, während die Probenqualität erhalten bleibt oder sogar verbessert wird. Im Gegensatz zu früheren Methoden der Führungsdestillation, die das gesamte Modell anpassen, hält AGD das Basismodell eingefroren und trainiert nur minimale zusätzliche Parameter (ca. 2 %), um den Ressourcenbedarf der Destillationsphase erheblich zu reduzieren. Darüber hinaus bewahrt dieser Ansatz die ursprünglichen Modellgewichte und ermöglicht es, die Adapter nahtlos mit anderen Checkpoints, die vom gleichen Basismodell abgeleitet sind, zu kombinieren. Wir behandeln auch eine zentrale Diskrepanz zwischen Training und Inferenz in bestehenden Führungsdestillationsmethoden, indem wir auf CFG-geführten Trajektorien statt auf standardmäßigen Diffusionspfaden trainieren. Durch umfangreiche Experimente zeigen wir, dass AGD mit nur der Hälfte der NFEs vergleichbare oder bessere FID-Werte (Fréchet Inception Distance) gegenüber CFG über mehrere Architekturen hinweg erreicht. Bemerkenswerterweise ermöglicht unsere Methode die Destillation großer Modelle (ca. 2,6 Mrd. Parameter) auf einer einzelnen Consumer-GPU mit 24 GB VRAM, was sie zugänglicher macht als bisherige Ansätze, die mehrere High-End-GPUs erfordern. Wir werden die Implementierung unserer Methode öffentlich zugänglich machen.

English

While classifier-free guidance (CFG) is essential for conditional diffusion models, it doubles the number of neural function evaluations (NFEs) per inference step. To mitigate this inefficiency, we introduce adapter guidance distillation (AGD), a novel approach that simulates CFG in a single forward pass. AGD leverages lightweight adapters to approximate CFG, effectively doubling the sampling speed while maintaining or even improving sample quality. Unlike prior guidance distillation methods that tune the entire model, AGD keeps the base model frozen and only trains minimal additional parameters (sim2%) to significantly reduce the resource requirement of the distillation phase. Additionally, this approach preserves the original model weights and enables the adapters to be seamlessly combined with other checkpoints derived from the same base model. We also address a key mismatch between training and inference in existing guidance distillation methods by training on CFG-guided trajectories instead of standard diffusion trajectories. Through extensive experiments, we show that AGD achieves comparable or superior FID to CFG across multiple architectures with only half the NFEs. Notably, our method enables the distillation of large models (sim2.6B parameters) on a single consumer GPU with 24 GB of VRAM, making it more accessible than previous approaches that require multiple high-end GPUs. We will publicly release the implementation of our method.

Effiziente Destillation von Classifier-Free Guidance mit Adaptern

Efficient Distillation of Classifier-Free Guidance using Adapters

Zusammenfassung

Summary

Support

Support