o3-mini 대 DeepSeek-R1: 어느 쪽이 더 안전한가요?
o3-mini vs DeepSeek-R1: Which One is Safer?
January 30, 2025
저자: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura
DeepSeek-R1의 등장은 AI 산업 전반 및 특히 LLMs에 대한 전환점을 구성한다. 그 능력은 창의적 사고, 코드 생성, 수학 및 자동 프로그램 수리를 포함한 여러 작업에서 우수한 성능을 보여주었으며, 실행 비용이 낮다는 것으로 나타났다. 그러나 LLMs는 안전 및 인간의 가치와의 중요한 질적 속성, 즉 정렬을 준수해야 한다. DeepSeek-R1의 명확한 경쟁자는 미국의 OpenAI o3-mini 모델로, 성능, 안전성 및 비용 측면에서 높은 기준을 설정할 것으로 예상된다. 본 논문에서는 DeepSeek-R1 (70b 버전)과 OpenAI o3-mini (베타 버전)의 안전 수준을 체계적으로 평가한다. 이를 위해 최근 출시된 자동 안전 테스트 도구인 ASTRAL을 활용한다. 이 도구를 활용하여 우리는 총 1260개의 불안전한 테스트 입력을 두 모델 모두에 자동적으로 체계적으로 생성하고 실행한다. 두 LLMs가 제공한 결과를 반 자동으로 평가한 결과, DeepSeek-R1은 OpenAI o3-mini에 비해 매우 불안전하다는 것을 나타낸다. 우리의 평가에 따르면, DeepSeek-R1은 실행된 프롬프트 중 11.98%에 불안전하게 응답했고, o3-mini는 단지 1.19%에 불과했다.
The irruption of DeepSeek-R1 constitutes a turning point for the AI industry
in general and the LLMs in particular. Its capabilities have demonstrated
outstanding performance in several tasks, including creative thinking, code
generation, maths and automated program repair, at apparently lower execution
cost. However, LLMs must adhere to an important qualitative property, i.e.,
their alignment with safety and human values. A clear competitor of DeepSeek-R1
is its American counterpart, OpenAI's o3-mini model, which is expected to set
high standards in terms of performance, safety and cost. In this paper we
conduct a systematic assessment of the safety level of both, DeepSeek-R1 (70b
version) and OpenAI's o3-mini (beta version). To this end, we make use of our
recently released automated safety testing tool, named ASTRAL. By leveraging
this tool, we automatically and systematically generate and execute a total of
1260 unsafe test inputs on both models. After conducting a semi-automated
assessment of the outcomes provided by both LLMs, the results indicate that
DeepSeek-R1 is highly unsafe as compared to OpenAI's o3-mini. Based on our
evaluation, DeepSeek-R1 answered unsafely to 11.98% of the executed prompts
whereas o3-mini only to 1.19%.Summary
AI-Generated Summary