SEAL: Verschlungene White-Box-Wasserzeichen bei Anpassung an niedrigrangige Modelle
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation
January 16, 2025
Autoren: Giyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu
cs.AI
Zusammenfassung
In letzter Zeit sind LoRA und seine Varianten zur Standardstrategie für das Training und den Austausch von aufgabenbezogenen Versionen großer vorab trainierter Modelle geworden, dank ihrer Effizienz und Einfachheit. Allerdings bleibt das Thema Urheberschutz für LoRA-Gewichte, insbesondere durch wasserzeichengestützte Techniken, noch unerforscht. Um diese Lücke zu schließen, schlagen wir SEAL (SEcure wAtermarking on LoRA weights) vor, das universelle Whitebox-Wasserzeichen für LoRA. SEAL bettet eine geheime, nicht trainierbare Matrix zwischen trainierbaren LoRA-Gewichten ein, die als Eigentumsnachweis dient. Anschließend verwebt SEAL den Eigentumsnachweis mit den LoRA-Gewichten durch Training, ohne zusätzlichen Verlust für die Verwebung, und verteilt die feinabgestimmten Gewichte, nachdem der Eigentumsnachweis versteckt wurde. Bei der Anwendung von SEAL beobachteten wir keine Leistungsverschlechterung bei Aufgaben des gesunden Menschenverstands, der Anpassung von textuellen/visuellen Anweisungen und der Text-zu-Bild-Synthese. Wir zeigen, dass SEAL robust gegen eine Vielzahl bekannter Angriffe ist: Entfernungs-, Verschleierungs- und Mehrdeutigkeitsangriffe.
English
Recently, LoRA and its variants have become the de facto strategy for
training and sharing task-specific versions of large pretrained models, thanks
to their efficiency and simplicity. However, the issue of copyright protection
for LoRA weights, especially through watermark-based techniques, remains
underexplored. To address this gap, we propose SEAL (SEcure wAtermarking on
LoRA weights), the universal whitebox watermarking for LoRA. SEAL embeds a
secret, non-trainable matrix between trainable LoRA weights, serving as a
passport to claim ownership. SEAL then entangles the passport with the LoRA
weights through training, without extra loss for entanglement, and distributes
the finetuned weights after hiding the passport. When applying SEAL, we
observed no performance degradation across commonsense reasoning,
textual/visual instruction tuning, and text-to-image synthesis tasks. We
demonstrate that SEAL is robust against a variety of known attacks: removal,
obfuscation, and ambiguity attacks.Summary
AI-Generated Summary