ChatPaper.aiChatPaper

Lernen von Few-Step-Diffusionsmodellen durch Trajektorienverteilungsabgleich

Learning Few-Step Diffusion Models by Trajectory Distribution Matching

March 9, 2025
Autoren: Yihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang
cs.AI

Zusammenfassung

Die Beschleunigung der Abtastung von Diffusionsmodellen ist entscheidend für den effizienten Einsatz von AIGC. Während Diffusionsdistillationsmethoden – basierend auf Verteilungsabgleich und Trajektorienabgleich – die Abtastung auf so wenig wie einen Schritt reduzieren, erreichen sie bei komplexen Aufgaben wie der Text-zu-Bild-Generierung ihre Grenzen. Die Generierung in wenigen Schritten bietet eine bessere Balance zwischen Geschwindigkeit und Qualität, doch bestehende Ansätze stehen vor einem anhaltenden Kompromiss: Der Verteilungsabgleich mangelt es an Flexibilität für die Mehrschritt-Abtastung, während der Trajektorienabgleich oft suboptimale Bildqualität liefert. Um diese Lücke zu schließen, schlagen wir vor, Diffusionsmodelle mit wenigen Schritten durch Trajektorien-Verteilungsabgleich (TDM) zu lernen, ein vereinheitlichtes Distillationsparadigma, das die Stärken von Verteilungs- und Trajektorienabgleich kombiniert. Unsere Methode führt ein datenfreies Score-Distillationsziel ein, das die Trajektorie des Schülers auf Verteilungsebene mit der des Lehrers abstimmt. Darüber hinaus entwickeln wir ein abtastschrittbewusstes Ziel, das Lernziele über verschiedene Schritte entkoppelt und eine anpassbarere Abtastung ermöglicht. Dieser Ansatz unterstützt sowohl deterministische Abtastung für überlegene Bildqualität als auch flexible Mehrschritt-Anpassung und erreicht dabei Spitzenleistungen mit bemerkenswerter Effizienz. Unser Modell, TDM, übertrifft bestehende Methoden auf verschiedenen Backbones wie SDXL und PixArt-alpha und liefert überlegene Qualität bei deutlich reduzierten Trainingskosten. Insbesondere destilliert unsere Methode PixArt-alpha in einen 4-Schritt-Generator, der seinen Lehrer bei der realen Benutzerpräferenz in 1024-Auflösung übertrifft. Dies wird mit 500 Iterationen und 2 A800-Stunden erreicht – lediglich 0,01 % der Trainingskosten des Lehrers. Zusätzlich kann unser vorgeschlagenes TDM erweitert werden, um die Text-zu-Video-Diffusion zu beschleunigen. Bemerkenswerterweise kann TDM sein Lehrermodell (CogVideoX-2B) übertreffen, indem es nur 4 NFE auf VBench verwendet und die Gesamtpunktzahl von 80,91 auf 81,65 verbessert. Projektseite: https://tdm-t2x.github.io/
English
Accelerating diffusion model sampling is crucial for efficient AIGC deployment. While diffusion distillation methods -- based on distribution matching and trajectory matching -- reduce sampling to as few as one step, they fall short on complex tasks like text-to-image generation. Few-step generation offers a better balance between speed and quality, but existing approaches face a persistent trade-off: distribution matching lacks flexibility for multi-step sampling, while trajectory matching often yields suboptimal image quality. To bridge this gap, we propose learning few-step diffusion models by Trajectory Distribution Matching (TDM), a unified distillation paradigm that combines the strengths of distribution and trajectory matching. Our method introduces a data-free score distillation objective, aligning the student's trajectory with the teacher's at the distribution level. Further, we develop a sampling-steps-aware objective that decouples learning targets across different steps, enabling more adjustable sampling. This approach supports both deterministic sampling for superior image quality and flexible multi-step adaptation, achieving state-of-the-art performance with remarkable efficiency. Our model, TDM, outperforms existing methods on various backbones, such as SDXL and PixArt-alpha, delivering superior quality and significantly reduced training costs. In particular, our method distills PixArt-alpha into a 4-step generator that outperforms its teacher on real user preference at 1024 resolution. This is accomplished with 500 iterations and 2 A800 hours -- a mere 0.01% of the teacher's training cost. In addition, our proposed TDM can be extended to accelerate text-to-video diffusion. Notably, TDM can outperform its teacher model (CogVideoX-2B) by using only 4 NFE on VBench, improving the total score from 80.91 to 81.65. Project page: https://tdm-t2x.github.io/

Summary

AI-Generated Summary

PDF73March 17, 2025