Stabiele consistentieafstemming: Begrip en Verbetering van Consistentiemodellen

Samenvatting

Diffusiemodellen behalen een superieure generatiekwaliteit, maar kampen met een trage generatiesnelheid als gevolg van de iteratieve aard van denoising. Daarentegen behalen consistentiemodellen, een nieuwe generatieve familie, een competitieve prestatie met aanzienlijk snellere sampling. Deze modellen worden getraind via consistentie distillatie, waarbij gebruik wordt gemaakt van vooraf getrainde diffusiemodellen, of door consistentietraining/-afstemming rechtstreeks van ruwe gegevens. In dit werk stellen we een nieuw raamwerk voor om consistentiemodellen te begrijpen door het denoisingproces van het diffusiemodel te modelleren als een Markov Decision Process (MDP) en het trainen van consistentiemodellen te kaderen als de waarde-inschatting via Temporal Difference (TD) Learning. Belangrijker nog, dit raamwerk stelt ons in staat om de beperkingen van huidige consistentietraining/-afstemmingsstrategieën te analyseren. Voortbouwend op Easy Consistency Tuning (ECT), stellen we Stable Consistency Tuning (SCT) voor, dat leert met verminderde variantie door gebruik te maken van de score identity. SCT leidt tot aanzienlijke prestatieverbeteringen op benchmarks zoals CIFAR-10 en ImageNet-64. Op ImageNet-64 behaalt SCT een 1-stap FID van 2.42 en een 2-stap FID van 1.55, een nieuwe SoTA voor consistentiemodellen.

English

Diffusion models achieve superior generation quality but suffer from slow generation speed due to the iterative nature of denoising. In contrast, consistency models, a new generative family, achieve competitive performance with significantly faster sampling. These models are trained either through consistency distillation, which leverages pretrained diffusion models, or consistency training/tuning directly from raw data. In this work, we propose a novel framework for understanding consistency models by modeling the denoising process of the diffusion model as a Markov Decision Process (MDP) and framing consistency model training as the value estimation through Temporal Difference~(TD) Learning. More importantly, this framework allows us to analyze the limitations of current consistency training/tuning strategies. Built upon Easy Consistency Tuning (ECT), we propose Stable Consistency Tuning (SCT), which incorporates variance-reduced learning using the score identity. SCT leads to significant performance improvements on benchmarks such as CIFAR-10 and ImageNet-64. On ImageNet-64, SCT achieves 1-step FID 2.42 and 2-step FID 1.55, a new SoTA for consistency models.

Stabiele consistentieafstemming: Begrip en Verbetering van Consistentiemodellen

Stable Consistency Tuning: Understanding and Improving Consistency Models

Samenvatting

Support