ChatPaper.aiChatPaper

SNOOPI: 적절한 안내로 슈퍼충전된 일단계 확산 증류

SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance

December 3, 2024
저자: Viet Nguyen, Anh Aengus Nguyen, Trung Dao, Khoi Nguyen, Cuong Pham, Toan Tran, Anh Tran
cs.AI

초록

최근의 접근법은 다단계 텍스트-이미지 확산 모델을 일단계 모델로 축소하는 데 융통성 있는 결과를 얻었습니다. 최신의 효율적인 축소 기술인 즉, SwiftBrushv2 (SBv2)는 한정된 자원으로도 교사 모델의 성능을 능가합니다. 그러나 우리의 연구는 변분 점수 축소 (VSD) 손실 내에서 고정된 가이드 스케일을 사용하여 다양한 확산 모델 백본을 처리할 때 안정성이 부족함을 밝혀냅니다. 기존 일단계 확산 모델의 또 다른 약점은 실용적인 이미지 생성에서 중요한 부정적 프롬프트 가이드를 지원하지 않는 것입니다. 본 논문에서는 SNOOPI를 제안하여 이러한 한계를 극복하기 위해 일단계 확산 모델의 가이드를 강화하는 혁신적인 프레임워크를 제시합니다. 먼저, Proper Guidance-SwiftBrush (PG-SB)를 통해 훈련 안정성을 효과적으로 향상시킴으로써 교사 모델의 가이드 스케일을 다양화하여 출력 분포를 확장하여 다양한 백본에서 효과적으로 작동하도록 하는 더 견고한 VSD 손실을 구현합니다. 두 번째로, Negative-Away Steer Attention (NASA)라는 훈련 없는 방법을 제안하여 부정적 프롬프트를 교차 주의를 통해 일단계 확산 모델에 통합하여 생성된 이미지에서 원치 않는 요소를 억제합니다. 실험 결과는 우리의 제안된 방법이 다양한 메트릭을 통해 기준 모델을 크게 개선시킨다는 것을 보여줍니다. 놀랍게도, 우리는 일단계 확산 모델에 대한 새로운 최첨단 기준을 설정하며 HPSv2 점수를 31.08로 달성합니다.
English
Recent approaches have yielded promising results in distilling multi-step text-to-image diffusion models into one-step ones. The state-of-the-art efficient distillation technique, i.e., SwiftBrushv2 (SBv2), even surpasses the teacher model's performance with limited resources. However, our study reveals its instability when handling different diffusion model backbones due to using a fixed guidance scale within the Variational Score Distillation (VSD) loss. Another weakness of the existing one-step diffusion models is the missing support for negative prompt guidance, which is crucial in practical image generation. This paper presents SNOOPI, a novel framework designed to address these limitations by enhancing the guidance in one-step diffusion models during both training and inference. First, we effectively enhance training stability through Proper Guidance-SwiftBrush (PG-SB), which employs a random-scale classifier-free guidance approach. By varying the guidance scale of both teacher models, we broaden their output distributions, resulting in a more robust VSD loss that enables SB to perform effectively across diverse backbones while maintaining competitive performance. Second, we propose a training-free method called Negative-Away Steer Attention (NASA), which integrates negative prompts into one-step diffusion models via cross-attention to suppress undesired elements in generated images. Our experimental results show that our proposed methods significantly improve baseline models across various metrics. Remarkably, we achieve an HPSv2 score of 31.08, setting a new state-of-the-art benchmark for one-step diffusion models.

Summary

AI-Generated Summary

PDF1093December 5, 2024