ChatPaper.aiChatPaper

Destillieren von Diversität und Kontrolle in Diffusionsmodellen

Distilling Diversity and Control in Diffusion Models

March 13, 2025
Autoren: Rohit Gandikota, David Bau
cs.AI

Zusammenfassung

Destillierte Diffusionsmodelle leiden unter einer entscheidenden Einschränkung: eine reduzierte Probenvielfalt im Vergleich zu ihren Basismodellen. In dieser Arbeit zeigen wir, dass trotz dieses Vielfaltsverlusts destillierte Modelle die grundlegenden Konzeptrepräsentationen der Basismodelle beibehalten. Wir demonstrieren Control Distillation – bei dem Kontrollmechanismen wie Concept Sliders und LoRAs, die auf Basismodellen trainiert wurden, nahtlos auf destillierte Modelle übertragen werden können und umgekehrt, wodurch die Kontrolle effektiv ohne erneutes Training destilliert wird. Diese Bewahrung der repräsentativen Struktur veranlasste uns, die Mechanismen des Vielfaltskollapses während der Destillation zu untersuchen. Um zu verstehen, wie die Destillation die Vielfalt beeinflusst, führen wir Diffusion Target (DT) Visualization ein, ein Analyse- und Debugging-Tool, das zeigt, wie Modelle endgültige Ausgaben in Zwischenschritten vorhersagen. Durch DT-Visualisierung identifizieren wir Generierungsartefakte, Inkonsistenzen und zeigen, dass die anfänglichen Diffusionszeitpunkte die Ausgabevielfalt unverhältnismäßig stark bestimmen, während spätere Schritte hauptsächlich Details verfeinern. Basierend auf diesen Erkenntnissen führen wir Diversity Distillation ein – einen hybriden Inferenzansatz, der das Basismodell strategisch nur für den ersten kritischen Zeitpunkt einsetzt, bevor es zum effizienten destillierten Modell wechselt. Unsere Experimente zeigen, dass diese einfache Modifikation nicht nur die Vielfaltfähigkeiten von Basis- zu destillierten Modellen wiederherstellt, sondern diese überraschenderweise übertrifft, während sie nahezu die Recheneffizienz der destillierten Inferenz beibehält, alles ohne zusätzliches Training oder Modifikationen. Unser Code und unsere Daten sind verfügbar unter https://distillation.baulab.info.
English
Distilled diffusion models suffer from a critical limitation: reduced sample diversity compared to their base counterparts. In this work, we uncover that despite this diversity loss, distilled models retain the fundamental concept representations of base models. We demonstrate control distillation - where control mechanisms like Concept Sliders and LoRAs trained on base models can be seamlessly transferred to distilled models and vice-versa, effectively distilling control without any retraining. This preservation of representational structure prompted our investigation into the mechanisms of diversity collapse during distillation. To understand how distillation affects diversity, we introduce Diffusion Target (DT) Visualization, an analysis and debugging tool that reveals how models predict final outputs at intermediate steps. Through DT-Visualization, we identify generation artifacts, inconsistencies, and demonstrate that initial diffusion timesteps disproportionately determine output diversity, while later steps primarily refine details. Based on these insights, we introduce diversity distillation - a hybrid inference approach that strategically employs the base model for only the first critical timestep before transitioning to the efficient distilled model. Our experiments demonstrate that this simple modification not only restores the diversity capabilities from base to distilled models but surprisingly exceeds it, while maintaining nearly the computational efficiency of distilled inference, all without requiring additional training or model modifications. Our code and data are available at https://distillation.baulab.info

Summary

AI-Generated Summary

PDF142March 14, 2025