SEAL: 저랭크 적응에서의 얽힌 화이트박스 워터마크
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation
January 16, 2025
저자: Giyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu
cs.AI
초록
최근에는 LoRA 및 해당 변형들이 효율성과 간편함으로 인해 대규모 사전 훈련된 모델의 작업별 버전을 훈련하고 공유하는 데 사용되는 사실상의 전략이 되었습니다. 그러나 특히 워터마크 기반 기술을 통한 LoRA 가중치의 저작권 보호 문제는 아직 탐구되지 않은 상태입니다. 이러한 공백을 해결하기 위해 우리는 LoRA에 대한 보안 워터마킹인 SEAL (SEcure wAtermarking on LoRA weights)을 제안합니다. SEAL은 훈련 가능한 LoRA 가중치 사이에 비훈련 가능한 비밀 행렬을 삽입하여 소유권 주장을 위한 여권 역할을 합니다. SEAL은 그 후 훈련을 통해 여권을 LoRA 가중치와 뒤섞고, 뒤섞음에 대한 추가 손실 없이 미세 조정된 가중치를 여권을 숨긴 채로 배포합니다. SEAL을 적용할 때, 우리는 상식적 추론, 텍스트/시각적 지시 조정, 텍스트-이미지 합성 작업에서 성능 저하가 없는 것을 관찰했습니다. 또한 SEAL이 다양한 알려진 공격에 대해 견고함을 입증했습니다: 제거, 혼동, 모호성 공격에 대해요.
English
Recently, LoRA and its variants have become the de facto strategy for
training and sharing task-specific versions of large pretrained models, thanks
to their efficiency and simplicity. However, the issue of copyright protection
for LoRA weights, especially through watermark-based techniques, remains
underexplored. To address this gap, we propose SEAL (SEcure wAtermarking on
LoRA weights), the universal whitebox watermarking for LoRA. SEAL embeds a
secret, non-trainable matrix between trainable LoRA weights, serving as a
passport to claim ownership. SEAL then entangles the passport with the LoRA
weights through training, without extra loss for entanglement, and distributes
the finetuned weights after hiding the passport. When applying SEAL, we
observed no performance degradation across commonsense reasoning,
textual/visual instruction tuning, and text-to-image synthesis tasks. We
demonstrate that SEAL is robust against a variety of known attacks: removal,
obfuscation, and ambiguity attacks.Summary
AI-Generated Summary