Taratura della Coerenza Stabile: Comprendere e Migliorare i Modelli di Coerenza
Stable Consistency Tuning: Understanding and Improving Consistency Models
October 24, 2024
Autori: Fu-Yun Wang, Zhengyang Geng, Hongsheng Li
cs.AI
Abstract
I modelli di diffusione raggiungono una qualità di generazione superiore ma soffrono di una lentezza nella generazione a causa della natura iterativa del denoising. Al contrario, i modelli di consistenza, una nuova famiglia generativa, raggiungono prestazioni competitive con un campionamento significativamente più veloce. Questi modelli vengono addestrati attraverso la distillazione della consistenza, che sfrutta modelli di diffusione preaddestrati, o attraverso l'addestramento/ottimizzazione della consistenza direttamente dai dati grezzi. In questo lavoro, proponiamo un nuovo framework per comprendere i modelli di consistenza modellando il processo di denoising del modello di diffusione come un Processo Decisionale di Markov (MDP) e inquadrando l'addestramento del modello di consistenza come la stima del valore attraverso l'apprendimento Temporal Difference (TD). Inoltre, questo framework ci permette di analizzare i limiti delle attuali strategie di addestramento/ottimizzazione della consistenza. Basandoci su Easy Consistency Tuning (ECT), proponiamo Stable Consistency Tuning (SCT), che incorpora un apprendimento con riduzione della varianza utilizzando l'identità del punteggio. SCT porta a significativi miglioramenti delle prestazioni su benchmark come CIFAR-10 e ImageNet-64. Su ImageNet-64, SCT raggiunge un FID a 1 passo di 2,42 e un FID a 2 passi di 1,55, un nuovo SoTA per i modelli di consistenza.
English
Diffusion models achieve superior generation quality but suffer from slow
generation speed due to the iterative nature of denoising. In contrast,
consistency models, a new generative family, achieve competitive performance
with significantly faster sampling. These models are trained either through
consistency distillation, which leverages pretrained diffusion models, or
consistency training/tuning directly from raw data. In this work, we propose a
novel framework for understanding consistency models by modeling the denoising
process of the diffusion model as a Markov Decision Process (MDP) and framing
consistency model training as the value estimation through Temporal
Difference~(TD) Learning. More importantly, this framework allows us to analyze
the limitations of current consistency training/tuning strategies. Built upon
Easy Consistency Tuning (ECT), we propose Stable Consistency Tuning (SCT),
which incorporates variance-reduced learning using the score identity. SCT
leads to significant performance improvements on benchmarks such as CIFAR-10
and ImageNet-64. On ImageNet-64, SCT achieves 1-step FID 2.42 and 2-step FID
1.55, a new SoTA for consistency models.Summary
AI-Generated Summary