ChatPaper.aiChatPaper

Stiller Branding-Angriff: Triggerfreier Datenvergiftungsangriff auf Text-zu-Bild-Diffusionsmodelle

Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

March 12, 2025
Autoren: Sangwon Jang, June Suk Choi, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang
cs.AI

Zusammenfassung

Text-to-Image-Diffusionsmodelle haben bemerkenswerte Erfolge bei der Erzeugung hochwertiger Inhalte aus Textprompts erzielt. Ihre Abhängigkeit von öffentlich verfügbaren Daten und der zunehmende Trend des Datenaustauschs zur Feinabstimmung machen diese Modelle jedoch besonders anfällig für Data-Poisoning-Angriffe. In dieser Arbeit stellen wir den Silent Branding Attack vor, eine neuartige Methode des Data Poisoning, die Text-to-Image-Diffusionsmodelle manipuliert, um Bilder mit bestimmten Markenlogos oder Symbolen zu erzeugen, ohne dass Texttrigger erforderlich sind. Wir stellen fest, dass, wenn bestimmte visuelle Muster wiederholt in den Trainingsdaten vorkommen, das Modell lernt, diese natürlich in seinen Ausgaben zu reproduzieren, selbst ohne Erwähnung im Prompt. Dies nutzend, entwickeln wir einen automatisierten Data-Poisoning-Algorithmus, der Logos unauffällig in Originalbilder einfügt und sicherstellt, dass sie sich natürlich einfügen und unentdeckt bleiben. Modelle, die auf diesem vergifteten Datensatz trainiert werden, erzeugen Bilder, die Logos enthalten, ohne die Bildqualität oder die Textausrichtung zu beeinträchtigen. Wir validieren unseren Silent Branding Attack experimentell in zwei realistischen Szenarien auf groß angelegten, hochwertigen Bilddatensätzen und Stil-Personalisierungsdatensätzen und erzielen hohe Erfolgsraten, selbst ohne spezifischen Texttrigger. Menschliche Bewertungen und quantitative Metriken, einschließlich der Logoerkennung, zeigen, dass unsere Methode Logos unbemerkt einbetten kann.
English
Text-to-image diffusion models have achieved remarkable success in generating high-quality contents from text prompts. However, their reliance on publicly available data and the growing trend of data sharing for fine-tuning make these models particularly vulnerable to data poisoning attacks. In this work, we introduce the Silent Branding Attack, a novel data poisoning method that manipulates text-to-image diffusion models to generate images containing specific brand logos or symbols without any text triggers. We find that when certain visual patterns are repeatedly in the training data, the model learns to reproduce them naturally in its outputs, even without prompt mentions. Leveraging this, we develop an automated data poisoning algorithm that unobtrusively injects logos into original images, ensuring they blend naturally and remain undetected. Models trained on this poisoned dataset generate images containing logos without degrading image quality or text alignment. We experimentally validate our silent branding attack across two realistic settings on large-scale high-quality image datasets and style personalization datasets, achieving high success rates even without a specific text trigger. Human evaluation and quantitative metrics including logo detection show that our method can stealthily embed logos.

Summary

AI-Generated Summary

PDF352March 14, 2025