ChatPaper.aiChatPaper

Unbedingte Priors sind entscheidend! Verbesserung der bedingten Generierung durch Feinabstimmung von Diffusionsmodellen

Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models

March 26, 2025
Autoren: Prin Phunyaphibarn, Phillip Y. Lee, Jaihoon Kim, Minhyuk Sung
cs.AI

Zusammenfassung

Classifier-Free Guidance (CFG) ist eine grundlegende Technik für das Training konditionaler Diffusionsmodelle. Die gängige Praxis beim CFG-basierten Training besteht darin, ein einzelnes Netzwerk zu verwenden, um sowohl die konditionale als auch die unkonditionale Rauschvorhersage zu erlernen, wobei eine geringe Dropout-Rate für die Konditionierung verwendet wird. Wir beobachten jedoch, dass das gemeinsame Lernen des unkonditionalen Rauschens mit begrenzter Bandbreite im Training zu schlechten Prioritäten für den unkonditionalen Fall führt. Noch wichtiger ist, dass diese schlechten unkonditionalen Rauschvorhersagen ein ernsthafter Grund für die Verschlechterung der Qualität der konditionalen Generierung werden. Inspiriert von der Tatsache, dass die meisten CFG-basierten konditionalen Modelle durch Feinabstimmung eines Basismodells mit besserer unkonditionaler Generierung trainiert werden, zeigen wir zunächst, dass der einfache Ersatz des unkonditionalen Rauschens in CFG durch die vom Basismodell vorhergesagten Werte die konditionale Generierung erheblich verbessern kann. Darüber hinaus zeigen wir, dass ein anderes Diffusionsmodell als das, auf dem das feinabgestimmte Modell trainiert wurde, für den Ersatz des unkonditionalen Rauschens verwendet werden kann. Wir überprüfen unsere Behauptung experimentell mit einer Reihe von CFG-basierten konditionalen Modellen für die Bild- und Videogenerierung, darunter Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter und InstructPix2Pix.
English
Classifier-Free Guidance (CFG) is a fundamental technique in training conditional diffusion models. The common practice for CFG-based training is to use a single network to learn both conditional and unconditional noise prediction, with a small dropout rate for conditioning. However, we observe that the joint learning of unconditional noise with limited bandwidth in training results in poor priors for the unconditional case. More importantly, these poor unconditional noise predictions become a serious reason for degrading the quality of conditional generation. Inspired by the fact that most CFG-based conditional models are trained by fine-tuning a base model with better unconditional generation, we first show that simply replacing the unconditional noise in CFG with that predicted by the base model can significantly improve conditional generation. Furthermore, we show that a diffusion model other than the one the fine-tuned model was trained on can be used for unconditional noise replacement. We experimentally verify our claim with a range of CFG-based conditional models for both image and video generation, including Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter, and InstructPix2Pix.

Summary

AI-Generated Summary

PDF223March 27, 2025