그랜아이트 가디언
Granite Guardian
December 10, 2024
저자: Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri
cs.AI
초록
Granite Guardian 모델을 소개합니다. 이는 프롬프트 및 응답에 대한 위험 탐지를 제공하도록 설계된 일련의 안전장치로, 어떤 대형 언어 모델 (LLM)과도 안전하고 책임있는 사용을 가능하게 합니다. 이러한 모델은 사회적 편향, 저속, 폭력, 성적 콘텐츠, 비윤리적 행동, 탈옥, 그리고 문맥 관련성, 근거, 그리고 검색 증강 생성 (RAG)을 위한 답변 관련성과 같은 환각 관련 위험을 포함한 다양한 위험 차원에 걸쳐 포괄적인 보호를 제공합니다. 다양한 소스에서의 인간 주석과 합성 데이터를 결합한 독특한 데이터셋으로 훈련된 Granite Guardian 모델은 일반적으로 전통적인 위험 탐지 모델에서 간과되는 탈옥 및 RAG 특정 문제와 같은 위험을 다룹니다. 유해 콘텐츠와 RAG-환각 관련 벤치마크에서 각각 0.871 및 0.854의 AUC 점수를 기록한 Granite Guardian은 해당 분야에서 가장 일반화되고 경쟁력 있는 모델입니다. 오픈 소스로 공개된 Granite Guardian은 커뮤니티 전반에 걸쳐 책임 있는 AI 개발을 촉진하는 것을 목표로 합니다.
https://github.com/ibm-granite/granite-guardian
English
We introduce the Granite Guardian models, a suite of safeguards designed to
provide risk detection for prompts and responses, enabling safe and responsible
use in combination with any large language model (LLM). These models offer
comprehensive coverage across multiple risk dimensions, including social bias,
profanity, violence, sexual content, unethical behavior, jailbreaking, and
hallucination-related risks such as context relevance, groundedness, and answer
relevance for retrieval-augmented generation (RAG). Trained on a unique dataset
combining human annotations from diverse sources and synthetic data, Granite
Guardian models address risks typically overlooked by traditional risk
detection models, such as jailbreaks and RAG-specific issues. With AUC scores
of 0.871 and 0.854 on harmful content and RAG-hallucination-related benchmarks
respectively, Granite Guardian is the most generalizable and competitive model
available in the space. Released as open-source, Granite Guardian aims to
promote responsible AI development across the community.
https://github.com/ibm-granite/granite-guardianSummary
AI-Generated Summary