SEAL: Verstrengelde White-box Watermerken bij Lage-Rang Aanpassing
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation
January 16, 2025
Auteurs: Giyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu
cs.AI
Samenvatting
Onlangs zijn LoRA en de varianten ervan de facto strategie geworden voor het trainen en delen van taakspecifieke versies van grote voorgeleerde modellen, dankzij hun efficiëntie en eenvoud. Het vraagstuk van auteursrechtbescherming voor LoRA-gewichten, met name via op watermerken gebaseerde technieken, blijft echter onderbelicht. Om deze lacune aan te pakken, stellen we SEAL (SEcure wAtermarking on LoRA weights) voor, de universele whitebox-watermerktechniek voor LoRA. SEAL incorporeert een geheime, niet-trainbare matrix tussen trainbare LoRA-gewichten, die fungeert als een paspoort om eigendom te claimen. Vervolgens verstrengelt SEAL het paspoort met de LoRA-gewichten door training, zonder extra verlies voor de verstrengeling, en distribueert de gefinetunede gewichten nadat het paspoort is verborgen. Bij het toepassen van SEAL hebben we geen prestatievermindering waargenomen bij taken zoals gezond verstand redeneren, tekst-/visuele instructieafstemming en tekst-naar-afbeelding synthese. We tonen aan dat SEAL robuust is tegen verschillende bekende aanvallen: verwijdering, verduistering en ambiguïteitsaanvallen.
English
Recently, LoRA and its variants have become the de facto strategy for
training and sharing task-specific versions of large pretrained models, thanks
to their efficiency and simplicity. However, the issue of copyright protection
for LoRA weights, especially through watermark-based techniques, remains
underexplored. To address this gap, we propose SEAL (SEcure wAtermarking on
LoRA weights), the universal whitebox watermarking for LoRA. SEAL embeds a
secret, non-trainable matrix between trainable LoRA weights, serving as a
passport to claim ownership. SEAL then entangles the passport with the LoRA
weights through training, without extra loss for entanglement, and distributes
the finetuned weights after hiding the passport. When applying SEAL, we
observed no performance degradation across commonsense reasoning,
textual/visual instruction tuning, and text-to-image synthesis tasks. We
demonstrate that SEAL is robust against a variety of known attacks: removal,
obfuscation, and ambiguity attacks.Summary
AI-Generated Summary