ChatPaper.aiChatPaper

대규모 추론 모델의 숨겨진 위험: R1의 안전성 평가

The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

February 18, 2025
저자: Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang
cs.AI

초록

OpenAI-o3 및 DeepSeek-R1과 같은 대규모 추론 모델의 급속한 발전은 비추론 대형 언어 모델(LLM)에 비해 복잡한 추론 능력에서 상당한 개선을 이끌어냈습니다. 그러나 이러한 향상된 능력과 DeepSeek-R1과 같은 모델의 오픈소스 접근성은 특히 오용 가능성과 관련된 심각한 안전 문제를 제기합니다. 본 연구에서는 이러한 추론 모델에 대한 포괄적인 안전 평가를 제시하며, 기존의 안전 벤치마크를 활용하여 이들이 안전 규정을 준수하는지 평가합니다. 또한, 재킹(jailbreaking) 및 프롬프트 주입(prompt injection)과 같은 적대적 공격에 대한 취약성을 조사하여 실제 응용에서의 견고성을 평가합니다. 다각적인 분석을 통해 우리는 네 가지 주요 발견을 도출했습니다: (1) 오픈소스 R1 모델과 o3-mini 모델 간에는 안전 벤치마크와 공격 모두에서 상당한 안전 격차가 존재하며, 이는 R1 모델에 더 많은 안전 노력이 필요함을 시사합니다. (2) 증류된 추론 모델은 안전 정렬된 기본 모델에 비해 더 낮은 안전 성능을 보입니다. (3) 모델의 추론 능력이 강할수록 안전하지 않은 질문에 답변할 때 더 큰 잠재적 피해를 초래할 수 있습니다. (4) R1 모델의 사고 과정은 최종 답변보다 더 큰 안전 문제를 야기합니다. 본 연구는 추론 모델의 보안적 함의에 대한 통찰을 제공하며, R1 모델의 안전성을 더욱 발전시켜 격차를 줄일 필요성을 강조합니다.
English
The rapid development of large reasoning models, such as OpenAI-o3 and DeepSeek-R1, has led to significant improvements in complex reasoning over non-reasoning large language models~(LLMs). However, their enhanced capabilities, combined with the open-source access of models like DeepSeek-R1, raise serious safety concerns, particularly regarding their potential for misuse. In this work, we present a comprehensive safety assessment of these reasoning models, leveraging established safety benchmarks to evaluate their compliance with safety regulations. Furthermore, we investigate their susceptibility to adversarial attacks, such as jailbreaking and prompt injection, to assess their robustness in real-world applications. Through our multi-faceted analysis, we uncover four key findings: (1) There is a significant safety gap between the open-source R1 models and the o3-mini model, on both safety benchmark and attack, suggesting more safety effort on R1 is needed. (2) The distilled reasoning model shows poorer safety performance compared to its safety-aligned base models. (3) The stronger the model's reasoning ability, the greater the potential harm it may cause when answering unsafe questions. (4) The thinking process in R1 models pose greater safety concerns than their final answers. Our study provides insights into the security implications of reasoning models and highlights the need for further advancements in R1 models' safety to close the gap.

Summary

AI-Generated Summary

PDF52February 20, 2025