Effiziente Personalisierung eines quantisierten Diffusionsmodells ohne Backpropagation
Efficient Personalization of Quantized Diffusion Model without Backpropagation
March 19, 2025
Autoren: Hoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun
cs.AI
Zusammenfassung
Diffusionsmodelle haben bemerkenswerte Leistungen in der Bildsynthese gezeigt, erfordern jedoch umfangreiche Rechen- und Speicherressourcen für das Training, die Feinabstimmung und die Inferenz. Obwohl fortschrittliche Quantisierungstechniken den Speicherbedarf für die Inferenz erfolgreich minimiert haben, benötigen das Training und die Feinabstimmung dieser quantisierten Modelle weiterhin viel Speicher, möglicherweise aufgrund von Dequantisierung für die genaue Berechnung von Gradienten und/oder Backpropagation für gradientenbasierte Algorithmen. Speichereffiziente Feinabstimmung ist jedoch besonders wünschenswert für Anwendungen wie Personalisierung, die oft auf Edge-Geräten wie Mobiltelefonen mit privaten Daten ausgeführt werden müssen. In dieser Arbeit gehen wir diese Herausforderung an, indem wir ein Diffusionsmodell mit Personalisierung via Textual Inversion quantisieren und eine Optimierung nullter Ordnung auf Personalisierungstokens ohne Dequantisierung nutzen, sodass keine Speicherung von Gradienten und Aktivierungen für die Backpropagation erforderlich ist, die erheblichen Speicher verbraucht. Da eine Gradientenschätzung mit Optimierung nullter Ordnung für ein einzelnes oder wenige Bilder in der Personalisierung recht verrauscht ist, schlagen wir vor, den geschätzten Gradienten durch Projektion auf einen Unterraum zu entrauschen, der mit der Vergangenheit der Tokens konstruiert wird, genannt Subspace Gradient. Zusätzlich haben wir den Einfluss von Text-Einbettungen auf die Bildgenerierung untersucht, was zu unserem vorgeschlagenen Sampling von Zeitschritten führte, genannt Partial Uniform Timestep Sampling für das Sampling mit effektiven Diffusion-Zeitschritten. Unsere Methode erreicht vergleichbare Leistungen zu früheren Methoden in Bild- und Textausrichtungswerten für die Personalisierung von Stable Diffusion mit nur Vorwärtspässen, während der Trainingsspeicherbedarf um bis zu das 8,2-fache reduziert wird.
English
Diffusion models have shown remarkable performance in image synthesis, but
they demand extensive computational and memory resources for training,
fine-tuning and inference. Although advanced quantization techniques have
successfully minimized memory usage for inference, training and fine-tuning
these quantized models still require large memory possibly due to
dequantization for accurate computation of gradients and/or backpropagation for
gradient-based algorithms. However, memory-efficient fine-tuning is
particularly desirable for applications such as personalization that often must
be run on edge devices like mobile phones with private data. In this work, we
address this challenge by quantizing a diffusion model with personalization via
Textual Inversion and by leveraging a zeroth-order optimization on
personalization tokens without dequantization so that it does not require
gradient and activation storage for backpropagation that consumes considerable
memory. Since a gradient estimation using zeroth-order optimization is quite
noisy for a single or a few images in personalization, we propose to denoise
the estimated gradient by projecting it onto a subspace that is constructed
with the past history of the tokens, dubbed Subspace Gradient. In addition, we
investigated the influence of text embedding in image generation, leading to
our proposed time steps sampling, dubbed Partial Uniform Timestep Sampling for
sampling with effective diffusion timesteps. Our method achieves comparable
performance to prior methods in image and text alignment scores for
personalizing Stable Diffusion with only forward passes while reducing training
memory demand up to 8.2times.Summary
AI-Generated Summary