PLADIS: Grenzen der Aufmerksamkeit in Diffusionsmodellen zur Inferenzzeit durch Nutzung von Sparsität erweitern
PLADIS: Pushing the Limits of Attention in Diffusion Models at Inference Time by Leveraging Sparsity
March 10, 2025
Autoren: Kwanyoung Kim, Byeongsu Sim
cs.AI
Zusammenfassung
Diffusionsmodelle haben beeindruckende Ergebnisse bei der Erzeugung hochwertiger bedingter Stichproben mithilfe von Leitverfahren wie Classifier-Free Guidance (CFG) gezeigt. Bestehende Methoden erfordern jedoch oft zusätzliches Training oder Bewertungen neuronaler Funktionen (NFEs), was sie mit leitungsdestillierten Modellen inkompatibel macht. Zudem stützen sie sich auf heuristische Ansätze, die die Identifizierung von Zielschichten erfordern. In dieser Arbeit schlagen wir eine neuartige und effiziente Methode vor, genannt PLADIS, die vortrainierte Modelle (U-Net/Transformer) durch die Nutzung von spärlicher Aufmerksamkeit verbessert. Konkret extrapolieren wir die Korrelationen zwischen Abfragen und Schlüsseln mithilfe von Softmax und dessen spärlichem Gegenstück in der Cross-Attention-Schicht während der Inferenz, ohne zusätzliches Training oder NFEs zu benötigen. Durch die Nutzung der Rauschrobustheit der spärlichen Aufmerksamkeit entfaltet unser PLADIS das latente Potenzial von Text-zu-Bild-Diffusionsmodellen und ermöglicht es ihnen, in Bereichen zu glänzen, in denen sie zuvor mit neuartiger Effektivität Schwierigkeiten hatten. Es integriert sich nahtlos in Leitverfahren, einschließlich leitungsdestillierter Modelle. Umfangreiche Experimente zeigen bemerkenswerte Verbesserungen in der Textausrichtung und menschlichen Präferenz und bieten eine hocheffiziente und universell anwendbare Lösung.
English
Diffusion models have shown impressive results in generating high-quality
conditional samples using guidance techniques such as Classifier-Free Guidance
(CFG). However, existing methods often require additional training or neural
function evaluations (NFEs), making them incompatible with guidance-distilled
models. Also, they rely on heuristic approaches that need identifying target
layers. In this work, we propose a novel and efficient method, termed PLADIS,
which boosts pre-trained models (U-Net/Transformer) by leveraging sparse
attention. Specifically, we extrapolate query-key correlations using softmax
and its sparse counterpart in the cross-attention layer during inference,
without requiring extra training or NFEs. By leveraging the noise robustness of
sparse attention, our PLADIS unleashes the latent potential of text-to-image
diffusion models, enabling them to excel in areas where they once struggled
with newfound effectiveness. It integrates seamlessly with guidance techniques,
including guidance-distilled models. Extensive experiments show notable
improvements in text alignment and human preference, offering a highly
efficient and universally applicable solution.Summary
AI-Generated Summary