안정적인 일관성 조정: 일관성 모델의 이해와 개선

Stable Consistency Tuning: Understanding and Improving Consistency Models

October 24, 2024
저자: Fu-Yun Wang, Zhengyang Geng, Hongsheng Li
cs.AI

초록

확산 모델은 노이즈 제거의 반복적 성격으로 인해 생성 속도가 느린 반면, 일관성 모델은 샘플링 속도가 현저히 빠르면서 경쟁력 있는 성능을 달성합니다. 이러한 모델들은 일관성 증류를 통해 사전 훈련된 확산 모델을 활용하거나 원시 데이터로부터 직접 일관성 훈련/조정을 통해 훈련됩니다. 본 연구에서는 확산 모델의 노이즈 제거 과정을 마르코프 결정 과정(MDP)으로 모델링하고 일관성 모델 훈련을 시간차(TD) 학습을 통한 가치 평가로 프레임화하는 새로운 프레임워크를 제안합니다. 더 중요한 것은, 이 프레임워크를 통해 현재의 일관성 훈련/조정 전략의 한계를 분석할 수 있습니다. Easy Consistency Tuning (ECT)을 기반으로 한 Stable Consistency Tuning (SCT)을 제안하여, 점수 동일성을 활용한 분산 감소 학습을 통해 CIFAR-10 및 ImageNet-64와 같은 벤치마크에서 상당한 성능 향상을 이루어냅니다. ImageNet-64에서 SCT는 1단계 FID 2.42 및 2단계 FID 1.55를 달성하여, 일관성 모델의 새로운 최고 성능을 보여줍니다.
English
Diffusion models achieve superior generation quality but suffer from slow generation speed due to the iterative nature of denoising. In contrast, consistency models, a new generative family, achieve competitive performance with significantly faster sampling. These models are trained either through consistency distillation, which leverages pretrained diffusion models, or consistency training/tuning directly from raw data. In this work, we propose a novel framework for understanding consistency models by modeling the denoising process of the diffusion model as a Markov Decision Process (MDP) and framing consistency model training as the value estimation through Temporal Difference~(TD) Learning. More importantly, this framework allows us to analyze the limitations of current consistency training/tuning strategies. Built upon Easy Consistency Tuning (ECT), we propose Stable Consistency Tuning (SCT), which incorporates variance-reduced learning using the score identity. SCT leads to significant performance improvements on benchmarks such as CIFAR-10 and ImageNet-64. On ImageNet-64, SCT achieves 1-step FID 2.42 and 2-step FID 1.55, a new SoTA for consistency models.

Summary

AI-Generated Summary

PDF93November 16, 2024