Vroegtijdige externe veiligheidstesten van OpenAI's o3-mini: Inzichten uit de evaluatie vóór implementatie
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation
January 29, 2025
Auteurs: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) zijn een integraal onderdeel geworden van ons dagelijks leven. Ze brengen echter bepaalde risico's met zich mee, waaronder die de privacy van individuen kunnen schaden, vooroordelen in stand houden en desinformatie verspreiden. Deze risico's benadrukken de noodzaak van robuuste veiligheidsmechanismen, ethische richtlijnen en grondige testen om ervoor te zorgen dat ze verantwoord worden ingezet. Veiligheid van LLM's is een essentiële eigenschap die grondig getest moet worden voordat het model wordt ingezet en toegankelijk wordt gemaakt voor de algemene gebruikers. Dit artikel rapporteert de ervaring met externe veiligheidstesten uitgevoerd door onderzoekers van de Universiteit van Mondragon en de Universiteit van Sevilla op OpenAI's nieuwe o3-mini LLM als onderdeel van het vroegtijdige toegang programma voor veiligheidstesten van OpenAI. In het bijzonder passen we onze tool, ASTRAL, toe om automatisch en systematisch actuele onveilige testinputs (d.w.z. prompts) te genereren die ons helpen om verschillende veiligheidscategorieën van LLM's te testen en te beoordelen. We genereren en voeren automatisch in totaal 10.080 onveilige testinputs uit op een vroege o3-mini bètaversie. Na handmatige verificatie van de door ASTRAL als onveilig geclassificeerde testgevallen, identificeren we in totaal 87 daadwerkelijke gevallen van onveilig gedrag van LLM's. We belichten belangrijke inzichten en bevindingen die zijn blootgelegd tijdens de externe testfase voor implementatie van de nieuwste LLM van OpenAI.
English
Large Language Models (LLMs) have become an integral part of our daily lives.
However, they impose certain risks, including those that can harm individuals'
privacy, perpetuate biases and spread misinformation. These risks highlight the
need for robust safety mechanisms, ethical guidelines, and thorough testing to
ensure their responsible deployment. Safety of LLMs is a key property that
needs to be thoroughly tested prior the model to be deployed and accessible to
the general users. This paper reports the external safety testing experience
conducted by researchers from Mondragon University and University of Seville on
OpenAI's new o3-mini LLM as part of OpenAI's early access for safety testing
program. In particular, we apply our tool, ASTRAL, to automatically and
systematically generate up to date unsafe test inputs (i.e., prompts) that
helps us test and assess different safety categories of LLMs. We automatically
generate and execute a total of 10,080 unsafe test input on a early o3-mini
beta version. After manually verifying the test cases classified as unsafe by
ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We
highlight key insights and findings uncovered during the pre-deployment
external testing phase of OpenAI's latest LLM.Summary
AI-Generated Summary