Una metodologia flessibile per lo sviluppo di guardrail per Large Language Models applicata alla rilevazione di prompt non pertinenti.
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection
November 20, 2024
Autori: Gabriel Chua, Shing Yee Chan, Shaun Khoo
cs.AI
Abstract
I Large Language Models sono inclini all'abuso off-topic, dove gli utenti potrebbero indurre tali modelli a svolgere compiti al di fuori del loro ambito previsto. Le attuali protezioni, che spesso si basano su esempi curati o classificatori personalizzati, soffrono di un'elevata frequenza di falsi positivi, limitata adattabilità e l'impraticabilità di richiedere dati del mondo reale non disponibili in fase di pre-produzione. In questo articolo, presentiamo una metodologia flessibile per lo sviluppo di protezioni senza dati che affronta tali sfide. Definendo in modo approfondito lo spazio del problema qualitativamente e passando ciò a un LLM per generare prompt diversi, costruiamo un dataset sintetico per valutare e addestrare protezioni off-topic che superano gli approcci euristici. Inoltre, riconfigurando il compito come classificazione della rilevanza del prompt dell'utente rispetto al prompt del sistema, le nostre protezioni generalizzano efficacemente ad altre categorie di abuso, inclusi jailbreak e prompt dannosi. Infine, contribuiamo ulteriormente al campo con la condivisione in open source sia del dataset sintetico che dei modelli di protezione off-topic, fornendo risorse preziose per lo sviluppo di protezioni in ambienti di pre-produzione e supportando la ricerca e lo sviluppo futuri sulla sicurezza dei LLM.
English
Large Language Models are prone to off-topic misuse, where users may prompt
these models to perform tasks beyond their intended scope. Current guardrails,
which often rely on curated examples or custom classifiers, suffer from high
false-positive rates, limited adaptability, and the impracticality of requiring
real-world data that is not available in pre-production. In this paper, we
introduce a flexible, data-free guardrail development methodology that
addresses these challenges. By thoroughly defining the problem space
qualitatively and passing this to an LLM to generate diverse prompts, we
construct a synthetic dataset to benchmark and train off-topic guardrails that
outperform heuristic approaches. Additionally, by framing the task as
classifying whether the user prompt is relevant with respect to the system
prompt, our guardrails effectively generalize to other misuse categories,
including jailbreak and harmful prompts. Lastly, we further contribute to the
field by open-sourcing both the synthetic dataset and the off-topic guardrail
models, providing valuable resources for developing guardrails in
pre-production environments and supporting future research and development in
LLM safety.Summary
AI-Generated Summary