Stabiele consistentieafstemming: Begrip en Verbetering van Consistentiemodellen
Stable Consistency Tuning: Understanding and Improving Consistency Models
October 24, 2024
Auteurs: Fu-Yun Wang, Zhengyang Geng, Hongsheng Li
cs.AI
Samenvatting
Diffusiemodellen behalen een superieure generatiekwaliteit, maar kampen met een trage generatiesnelheid als gevolg van de iteratieve aard van denoising. Daarentegen behalen consistentiemodellen, een nieuwe generatieve familie, een competitieve prestatie met aanzienlijk snellere sampling. Deze modellen worden getraind via consistentie distillatie, waarbij gebruik wordt gemaakt van vooraf getrainde diffusiemodellen, of door consistentietraining/-afstemming rechtstreeks van ruwe gegevens. In dit werk stellen we een nieuw raamwerk voor om consistentiemodellen te begrijpen door het denoisingproces van het diffusiemodel te modelleren als een Markov Decision Process (MDP) en het trainen van consistentiemodellen te kaderen als de waarde-inschatting via Temporal Difference (TD) Learning. Belangrijker nog, dit raamwerk stelt ons in staat om de beperkingen van huidige consistentietraining/-afstemmingsstrategieën te analyseren. Voortbouwend op Easy Consistency Tuning (ECT), stellen we Stable Consistency Tuning (SCT) voor, dat leert met verminderde variantie door gebruik te maken van de score identity. SCT leidt tot aanzienlijke prestatieverbeteringen op benchmarks zoals CIFAR-10 en ImageNet-64. Op ImageNet-64 behaalt SCT een 1-stap FID van 2.42 en een 2-stap FID van 1.55, een nieuwe SoTA voor consistentiemodellen.
English
Diffusion models achieve superior generation quality but suffer from slow
generation speed due to the iterative nature of denoising. In contrast,
consistency models, a new generative family, achieve competitive performance
with significantly faster sampling. These models are trained either through
consistency distillation, which leverages pretrained diffusion models, or
consistency training/tuning directly from raw data. In this work, we propose a
novel framework for understanding consistency models by modeling the denoising
process of the diffusion model as a Markov Decision Process (MDP) and framing
consistency model training as the value estimation through Temporal
Difference~(TD) Learning. More importantly, this framework allows us to analyze
the limitations of current consistency training/tuning strategies. Built upon
Easy Consistency Tuning (ECT), we propose Stable Consistency Tuning (SCT),
which incorporates variance-reduced learning using the score identity. SCT
leads to significant performance improvements on benchmarks such as CIFAR-10
and ImageNet-64. On ImageNet-64, SCT achieves 1-step FID 2.42 and 2-step FID
1.55, a new SoTA for consistency models.Summary
AI-Generated Summary