Frühe externe Sicherheitstests des o3-mini von OpenAI: Erkenntnisse aus der Bewertung vor der Bereitstellung
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation
January 29, 2025
Autoren: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind zu einem integralen Bestandteil unseres täglichen Lebens geworden. Allerdings bringen sie bestimmte Risiken mit sich, darunter solche, die die Privatsphäre von Personen beeinträchtigen, Vorurteile verstärken und Fehlinformationen verbreiten können. Diese Risiken unterstreichen die Notwendigkeit robuster Sicherheitsmechanismen, ethischer Leitlinien und gründlicher Tests, um eine verantwortungsbewusste Bereitstellung sicherzustellen. Die Sicherheit von LLMs ist eine Schlüsseleigenschaft, die vor der Bereitstellung des Modells und dem Zugang für allgemeine Benutzer gründlich getestet werden muss. In diesem Papier wird die externe Sicherheitsprüfungserfahrung berichtet, die von Forschern der Universität Mondragon und der Universität Sevilla am neuen o3-mini LLM von OpenAI im Rahmen des Frühzugriffsprogramms für Sicherheitstests von OpenAI durchgeführt wurde. Insbesondere wenden wir unser Tool, ASTRAL, an, um automatisch und systematisch aktuelle unsichere Testeingaben (d.h. Aufforderungen) zu generieren, die uns helfen, verschiedene Sicherheitskategorien von LLMs zu testen und zu bewerten. Wir generieren und führen insgesamt 10.080 unsichere Testeingaben auf einer frühen o3-mini Beta-Version automatisch aus. Nach manueller Überprüfung der von ASTRAL als unsicher eingestuften Testfälle identifizieren wir insgesamt 87 tatsächliche Fälle unsicherem Verhalten von LLMs. Wir heben wichtige Erkenntnisse und Ergebnisse hervor, die während der externen Testphase vor der Bereitstellung des neuesten LLM von OpenAI aufgedeckt wurden.
English
Large Language Models (LLMs) have become an integral part of our daily lives.
However, they impose certain risks, including those that can harm individuals'
privacy, perpetuate biases and spread misinformation. These risks highlight the
need for robust safety mechanisms, ethical guidelines, and thorough testing to
ensure their responsible deployment. Safety of LLMs is a key property that
needs to be thoroughly tested prior the model to be deployed and accessible to
the general users. This paper reports the external safety testing experience
conducted by researchers from Mondragon University and University of Seville on
OpenAI's new o3-mini LLM as part of OpenAI's early access for safety testing
program. In particular, we apply our tool, ASTRAL, to automatically and
systematically generate up to date unsafe test inputs (i.e., prompts) that
helps us test and assess different safety categories of LLMs. We automatically
generate and execute a total of 10,080 unsafe test input on a early o3-mini
beta version. After manually verifying the test cases classified as unsafe by
ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We
highlight key insights and findings uncovered during the pre-deployment
external testing phase of OpenAI's latest LLM.Summary
AI-Generated Summary