Effiziente Destillation von Classifier-Free Guidance mit Adaptern
Efficient Distillation of Classifier-Free Guidance using Adapters
March 10, 2025
Autoren: Cristian Perez Jensen, Seyedmorteza Sadat
cs.AI
Zusammenfassung
Während die klassifikatorfreie Führung (Classifier-Free Guidance, CFG) für bedingte Diffusionsmodelle unerlässlich ist, verdoppelt sie die Anzahl der neuronalen Funktionsauswertungen (Neural Function Evaluations, NFEs) pro Inferenzschritt. Um diese Ineffizienz zu mindern, führen wir die Adapter-Führungsdestillation (Adapter Guidance Distillation, AGD) ein, einen neuartigen Ansatz, der CFG in einem einzigen Vorwärtsdurchlauf simuliert. AGD nutzt leichtgewichtige Adapter, um CFG zu approximieren, wodurch die Abtastgeschwindigkeit effektiv verdoppelt wird, während die Probenqualität erhalten bleibt oder sogar verbessert wird. Im Gegensatz zu früheren Methoden der Führungsdestillation, die das gesamte Modell anpassen, hält AGD das Basismodell eingefroren und trainiert nur minimale zusätzliche Parameter (ca. 2 %), um den Ressourcenbedarf der Destillationsphase erheblich zu reduzieren. Darüber hinaus bewahrt dieser Ansatz die ursprünglichen Modellgewichte und ermöglicht es, die Adapter nahtlos mit anderen Checkpoints, die vom gleichen Basismodell abgeleitet sind, zu kombinieren. Wir behandeln auch eine zentrale Diskrepanz zwischen Training und Inferenz in bestehenden Führungsdestillationsmethoden, indem wir auf CFG-geführten Trajektorien statt auf standardmäßigen Diffusionspfaden trainieren. Durch umfangreiche Experimente zeigen wir, dass AGD mit nur der Hälfte der NFEs vergleichbare oder bessere FID-Werte (Fréchet Inception Distance) gegenüber CFG über mehrere Architekturen hinweg erreicht. Bemerkenswerterweise ermöglicht unsere Methode die Destillation großer Modelle (ca. 2,6 Mrd. Parameter) auf einer einzelnen Consumer-GPU mit 24 GB VRAM, was sie zugänglicher macht als bisherige Ansätze, die mehrere High-End-GPUs erfordern. Wir werden die Implementierung unserer Methode öffentlich zugänglich machen.
English
While classifier-free guidance (CFG) is essential for conditional diffusion
models, it doubles the number of neural function evaluations (NFEs) per
inference step. To mitigate this inefficiency, we introduce adapter guidance
distillation (AGD), a novel approach that simulates CFG in a single forward
pass. AGD leverages lightweight adapters to approximate CFG, effectively
doubling the sampling speed while maintaining or even improving sample quality.
Unlike prior guidance distillation methods that tune the entire model, AGD
keeps the base model frozen and only trains minimal additional parameters
(sim2%) to significantly reduce the resource requirement of the distillation
phase. Additionally, this approach preserves the original model weights and
enables the adapters to be seamlessly combined with other checkpoints derived
from the same base model. We also address a key mismatch between training and
inference in existing guidance distillation methods by training on CFG-guided
trajectories instead of standard diffusion trajectories. Through extensive
experiments, we show that AGD achieves comparable or superior FID to CFG across
multiple architectures with only half the NFEs. Notably, our method enables the
distillation of large models (sim2.6B parameters) on a single consumer GPU
with 24 GB of VRAM, making it more accessible than previous approaches that
require multiple high-end GPUs. We will publicly release the implementation of
our method.Summary
AI-Generated Summary