ChatPaper.aiChatPaper

활성화 근사치는 정렬된 LLMs에서도 안전 취약점을 초래할 수 있습니다: 포괄적 분석과 방어

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

February 2, 2025
저자: Jiawen Zhang, Kejia Chen, Lipeng He, Jian Lou, Dan Li, Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, Xiaohu Yang
cs.AI

초록

대형 언어 모델 (LLMs)은 다양한 영역에서 놀라운 능력을 보여주었습니다. LLMs의 진화하는 능력과 확장되는 배포 시나리오에 수반되는 것은, Llama, Gemma, Mistral과 같은 주목할만한 모델 시리즈에서 흔히 볼 수 있는 고급이면서 복잡한 활성화 설계로 인해 그들의 배포 도전이 증가합니다. 이러한 도전은 자원 제약이 있는 배포 시나리오에서 특히 두드러지며, 추론 효율 병목 현상을 완화하는 것이 필수적입니다. 최근의 다양한 노력 가운데 활성화 근사가 추론 효율을 추구하는 유망한 방안으로 떠오르고 있으며, 때로는 개인 추론과 같은 응용에서 필수적인 것으로 여겨집니다. 유틸리티에 미치는 영향이 미미하면서 상당한 속도 향상을 이루었음에도 불구하고, 활성화 근사의 안전성 영향은 여전히 명확하지 않습니다. 본 연구에서는 활성화 근사의 첫 번째 체계적인 안전성 평가를 통해 LLM 안전성의 중요한 공백을 채우고 있습니다. 우리의 안전성 검토는 세 가지 인기 있는 범주에서 일곱 가지 최신 기술을 포함하며, 열 가지 안전 기준에 부합하는 LLMs에서 일관된 안전성 저하를 드러냅니다.
English
Large Language Models (LLMs) have showcased remarkable capabilities across various domains. Accompanying the evolving capabilities and expanding deployment scenarios of LLMs, their deployment challenges escalate due to their sheer scale and the advanced yet complex activation designs prevalent in notable model series, such as Llama, Gemma, and Mistral. These challenges have become particularly pronounced in resource-constrained deployment scenarios, where mitigating inference efficiency bottlenecks is imperative. Among various recent efforts, activation approximation has emerged as a promising avenue for pursuing inference efficiency, sometimes considered indispensable in applications such as private inference. Despite achieving substantial speedups with minimal impact on utility, even appearing sound and practical for real-world deployment, the safety implications of activation approximations remain unclear. In this work, we fill this critical gap in LLM safety by conducting the first systematic safety evaluation of activation approximations. Our safety vetting spans seven sota techniques across three popular categories, revealing consistent safety degradation across ten safety-aligned LLMs.

Summary

AI-Generated Summary

PDF13February 5, 2025