Guardiano di Granito
Granite Guardian
December 10, 2024
Autori: Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri
cs.AI
Abstract
Introduciamo i modelli Granite Guardian, una serie di salvaguardie progettate per fornire rilevamento del rischio per prompt e risposte, consentendo un utilizzo sicuro e responsabile in combinazione con qualsiasi grande modello di linguaggio (LLM). Questi modelli offrono una copertura completa su molteplici dimensioni di rischio, tra cui bias sociale, volgarità, violenza, contenuti sessuali, comportamenti non etici, jailbreaking e rischi correlati all'allucinazione come rilevanza del contesto, solidità e rilevanza della risposta per la generazione potenziata da recupero (RAG). Addestrati su un dataset unico che combina annotazioni umane da fonti diverse e dati sintetici, i modelli Granite Guardian affrontano rischi spesso trascurati dai modelli tradizionali di rilevamento del rischio, come i jailbreak e le problematiche specifiche di RAG. Con punteggi AUC di 0,871 e 0,854 rispettivamente sui benchmark dei contenuti dannosi e delle allucinazioni correlate a RAG, Granite Guardian è il modello più generalizzabile e competitivo disponibile nello spazio. Rilasciato come open-source, Granite Guardian mira a promuovere lo sviluppo responsabile dell'IA all'interno della comunità. https://github.com/ibm-granite/granite-guardian
English
We introduce the Granite Guardian models, a suite of safeguards designed to
provide risk detection for prompts and responses, enabling safe and responsible
use in combination with any large language model (LLM). These models offer
comprehensive coverage across multiple risk dimensions, including social bias,
profanity, violence, sexual content, unethical behavior, jailbreaking, and
hallucination-related risks such as context relevance, groundedness, and answer
relevance for retrieval-augmented generation (RAG). Trained on a unique dataset
combining human annotations from diverse sources and synthetic data, Granite
Guardian models address risks typically overlooked by traditional risk
detection models, such as jailbreaks and RAG-specific issues. With AUC scores
of 0.871 and 0.854 on harmful content and RAG-hallucination-related benchmarks
respectively, Granite Guardian is the most generalizable and competitive model
available in the space. Released as open-source, Granite Guardian aims to
promote responsible AI development across the community.
https://github.com/ibm-granite/granite-guardianSummary
AI-Generated Summary