ChatPaper.aiChatPaper

약한 강한 확산과 반사

Weak-to-Strong Diffusion with Reflection

February 1, 2025
저자: Lichen Bai, Masashi Sugiyama, Zeke Xie
cs.AI

초록

확산 생성 모델의 목표는 그래디언트 점수 매칭을 통해 학습된 분포를 실제 데이터 분포와 일치시키는 것입니다. 그러나 훈련 데이터 품질, 모델링 전략 및 설계의 내재적 한계로 인해 생성된 출력물과 실제 데이터 간에 불가피한 차이가 발생합니다. 이 차이를 줄이기 위해 우리는 약한 모델과 강한 모델 간의 추정된 차이(즉, 약한-강한 차이)를 활용하여 이상적인 모델과 강한 모델 사이의 간격을 근사하는 새로운 프레임워크인 Weak-to-Strong Diffusion (W2SD)을 제안합니다. 약한-강한 차이를 이용한 소음 제거 및 역전파 간 교대 작업을 통해 W2SD가 잠재 변수를 샘플링 궤적을 따라 실제 데이터 분포의 영역으로 이동시킨다는 이론적 이해를 합니다. W2SD는 매우 유연하며 널리 적용 가능하며, 약한-강한 모델 쌍의 전략적 선택(예: DreamShaper vs. SD1.5, MoE의 좋은 전문가 vs. 나쁜 전문가)을 통해 다양한 개선을 가능하게 합니다. 광범위한 실험 결과는 W2SD가 인간의 선호도, 미적 품질 및 프롬프트 준수를 크게 향상시키며, 이미지, 비디오 등 다양한 모달리티, UNet 기반, DiT 기반, MoE 등 다양한 아키텍처 및 벤치마크에서 SOTA 성능을 달성한다는 것을 보여줍니다. 예를 들어, W2SD를 적용한 Juggernaut-XL은 HPSv2에서 원래 결과보다 최대 90%의 승률을 향상시킬 수 있습니다. 게다가, W2SD에 의해 달성된 성능 향상은 추가적인 계산 부담을 크게 상회하며, 다양한 약한-강한 차이로부터의 누적 개선은 실용성과 배포 가능성을 더욱 확고히 합니다.
English
The goal of diffusion generative models is to align the learned distribution with the real data distribution through gradient score matching. However, inherent limitations in training data quality, modeling strategies, and architectural design lead to inevitable gap between generated outputs and real data. To reduce this gap, we propose Weak-to-Strong Diffusion (W2SD), a novel framework that utilizes the estimated difference between existing weak and strong models (i.e., weak-to-strong difference) to approximate the gap between an ideal model and a strong model. By employing a reflective operation that alternates between denoising and inversion with weak-to-strong difference, we theoretically understand that W2SD steers latent variables along sampling trajectories toward regions of the real data distribution. W2SD is highly flexible and broadly applicable, enabling diverse improvements through the strategic selection of weak-to-strong model pairs (e.g., DreamShaper vs. SD1.5, good experts vs. bad experts in MoE). Extensive experiments demonstrate that W2SD significantly improves human preference, aesthetic quality, and prompt adherence, achieving SOTA performance across various modalities (e.g., image, video), architectures (e.g., UNet-based, DiT-based, MoE), and benchmarks. For example, Juggernaut-XL with W2SD can improve with the HPSv2 winning rate up to 90% over the original results. Moreover, the performance gains achieved by W2SD markedly outweigh its additional computational overhead, while the cumulative improvements from different weak-to-strong difference further solidify its practical utility and deployability.

Summary

AI-Generated Summary

PDF202February 7, 2025