BEATS: Suite di Valutazione e Analisi del Bias per Modelli Linguistici di Grande Dimensione
BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models
March 31, 2025
Autori: Alok Abhishek, Lisa Erickson, Tushar Bandopadhyay
cs.AI
Abstract
In questa ricerca, introduciamo BEATS, un nuovo framework per valutare Pregiudizio, Etica, Equità e Fattualità nei Modelli Linguistici di Grande Scala (LLM). Basandoci sul framework BEATS, presentiamo un benchmark di pregiudizio per gli LLM che misura le prestazioni attraverso 29 metriche distinte. Queste metriche coprono un'ampia gamma di caratteristiche, inclusi pregiudizi demografici, cognitivi e sociali, nonché misure di ragionamento etico, equità di gruppo e rischio di disinformazione legato alla fattualità. Queste metriche consentono una valutazione quantitativa della misura in cui le risposte generate dagli LLM possano perpetuare pregiudizi sociali che rafforzano o ampliano le disuguaglianze sistemiche. Per ottenere un punteggio elevato in questo benchmark, un LLM deve dimostrare un comportamento molto equo nelle sue risposte, rendendolo uno standard rigoroso per la valutazione dell'IA responsabile. I risultati empirici basati sui dati del nostro esperimento mostrano che il 37,65% degli output generati dai modelli leader del settore conteneva una qualche forma di pregiudizio, evidenziando un rischio sostanziale nell'uso di questi modelli nei sistemi decisionali critici. Il framework e il benchmark BEATS offrono una metodologia scalabile e statisticamente rigorosa per valutare gli LLM, diagnosticare i fattori che guidano i pregiudizi e sviluppare strategie di mitigazione. Con il framework BEATS, il nostro obiettivo è contribuire allo sviluppo di modelli di IA più socialmente responsabili e allineati eticamente.
English
In this research, we introduce BEATS, a novel framework for evaluating Bias,
Ethics, Fairness, and Factuality in Large Language Models (LLMs). Building upon
the BEATS framework, we present a bias benchmark for LLMs that measure
performance across 29 distinct metrics. These metrics span a broad range of
characteristics, including demographic, cognitive, and social biases, as well
as measures of ethical reasoning, group fairness, and factuality related
misinformation risk. These metrics enable a quantitative assessment of the
extent to which LLM generated responses may perpetuate societal prejudices that
reinforce or expand systemic inequities. To achieve a high score on this
benchmark a LLM must show very equitable behavior in their responses, making it
a rigorous standard for responsible AI evaluation. Empirical results based on
data from our experiment show that, 37.65\% of outputs generated by industry
leading models contained some form of bias, highlighting a substantial risk of
using these models in critical decision making systems. BEATS framework and
benchmark offer a scalable and statistically rigorous methodology to benchmark
LLMs, diagnose factors driving biases, and develop mitigation strategies. With
the BEATS framework, our goal is to help the development of more socially
responsible and ethically aligned AI models.Summary
AI-Generated Summary