ChatPaper.aiChatPaper

OpenAI의 o3-mini의 조기 외부 안전 테스트: 사전 배치 평가로부터의 통찰력

Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation

January 29, 2025
저자: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura
cs.AI

초록

대형 언어 모델 (LLMs)은 우리 일상의 중요한 부분이 되었습니다. 그러나 이들은 개인의 개인 정보를 해칠 수 있는 위험과 편향을 지속시키고 오도된 정보를 퍼뜨릴 수 있는 위험을 내포하고 있습니다. 이러한 위험은 책임 있는 배포를 보장하기 위해 견고한 안전 메커니즘, 윤리적 지침 및 철저한 테스트가 필요함을 강조합니다. LLM의 안전은 일반 사용자들에게 접근 가능한 배포 전에 철저히 테스트되어야 하는 중요한 속성입니다. 본 논문은 OpenAI의 초기 안전 테스트 프로그램의 일환으로 OpenAI의 새로운 o3-mini LLM에 대한 외부 안전 테스트 경험을 보고합니다. 특히 Mondragon 대학교와 Seville 대학교의 연구자들이 수행한 이 경험에서 우리는 ASTRAL이라는 도구를 적용하여 LLM의 다양한 안전 범주를 테스트하고 평가하는 데 도움이 되는 최신의 불안전한 테스트 입력 (즉, 프롬프트)를 자동으로 체계적으로 생성합니다. 우리는 초기 o3-mini 베타 버전에서 총 10,080개의 불안전한 테스트 입력을 자동으로 생성하고 실행합니다. ASTRAL에 의해 불안전으로 분류된 테스트 케이스를 수동으로 확인한 후, 우리는 총 87개의 실제 불안전한 LLM 행동 사례를 식별합니다. OpenAI의 최신 LLM의 배포 전 외부 테스트 단계에서 발견된 주요 통찰과 결과를 강조합니다.
English
Large Language Models (LLMs) have become an integral part of our daily lives. However, they impose certain risks, including those that can harm individuals' privacy, perpetuate biases and spread misinformation. These risks highlight the need for robust safety mechanisms, ethical guidelines, and thorough testing to ensure their responsible deployment. Safety of LLMs is a key property that needs to be thoroughly tested prior the model to be deployed and accessible to the general users. This paper reports the external safety testing experience conducted by researchers from Mondragon University and University of Seville on OpenAI's new o3-mini LLM as part of OpenAI's early access for safety testing program. In particular, we apply our tool, ASTRAL, to automatically and systematically generate up to date unsafe test inputs (i.e., prompts) that helps us test and assess different safety categories of LLMs. We automatically generate and execute a total of 10,080 unsafe test input on a early o3-mini beta version. After manually verifying the test cases classified as unsafe by ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We highlight key insights and findings uncovered during the pre-deployment external testing phase of OpenAI's latest LLM.

Summary

AI-Generated Summary

PDF132January 30, 2025