ChatPaper.aiChatPaper

확산-선명화: 소음 제거 궤적 선명화를 통한 확산 모델 세밀 조정

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

February 17, 2025
저자: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui
cs.AI

초록

저희는 샘플링 궤적을 최적화하여 하류 정렬을 향상시키는 세밀한 조정 방법인 확산-날카로운(Diffusion-Sharpening)을 제안합니다. 기존의 강화 학습 기반 세밀한 조정 방법은 단일 훈련 타임스텝에 초점을 맞추고 궤적 수준의 정렬을 무시하는 반면, 최근의 샘플링 궤적 최적화 방법은 상당한 추론 NFE 비용을 발생시킵니다. 확산-날카로운은 훈련 중에 최적의 궤적을 선택하기 위해 경로 적분 프레임워크를 활용하여 보상 피드백을 이용하고 추론 비용을 분담함으로써 이를 극복합니다. 저희 방법은 빠른 수렴으로 우수한 훈련 효율성을 보여주며, 추가 NFE를 필요로 하지 않으면서 최상의 추론 효율성을 제공합니다. 다양한 메트릭을 통해 확산-날카로운이 텍스트 정렬, 구성 능력, 인간의 선호도 등을 포함한 다양한 메트릭에서 강화 학습 기반 세밀한 조정 방법(예: 확산-DPO) 및 샘플링 궤적 최적화 방법(예: 추론 스케일링)을 능가하는 것을 입증하는 방대한 실험을 통해, 미래 확산 모델 세밀한 조정에 대한 확장 가능하고 효율적인 솔루션을 제공합니다. 코드: https://github.com/Gen-Verse/Diffusion-Sharpening
English
We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening

Summary

AI-Generated Summary

PDF153February 18, 2025