BEATS: Suite di Valutazione e Analisi del Bias per Modelli Linguistici di Grande Dimensione

Abstract

In questa ricerca, introduciamo BEATS, un nuovo framework per valutare Pregiudizio, Etica, Equità e Fattualità nei Modelli Linguistici di Grande Scala (LLM). Basandoci sul framework BEATS, presentiamo un benchmark di pregiudizio per gli LLM che misura le prestazioni attraverso 29 metriche distinte. Queste metriche coprono un'ampia gamma di caratteristiche, inclusi pregiudizi demografici, cognitivi e sociali, nonché misure di ragionamento etico, equità di gruppo e rischio di disinformazione legato alla fattualità. Queste metriche consentono una valutazione quantitativa della misura in cui le risposte generate dagli LLM possano perpetuare pregiudizi sociali che rafforzano o ampliano le disuguaglianze sistemiche. Per ottenere un punteggio elevato in questo benchmark, un LLM deve dimostrare un comportamento molto equo nelle sue risposte, rendendolo uno standard rigoroso per la valutazione dell'IA responsabile. I risultati empirici basati sui dati del nostro esperimento mostrano che il 37,65% degli output generati dai modelli leader del settore conteneva una qualche forma di pregiudizio, evidenziando un rischio sostanziale nell'uso di questi modelli nei sistemi decisionali critici. Il framework e il benchmark BEATS offrono una metodologia scalabile e statisticamente rigorosa per valutare gli LLM, diagnosticare i fattori che guidano i pregiudizi e sviluppare strategie di mitigazione. Con il framework BEATS, il nostro obiettivo è contribuire allo sviluppo di modelli di IA più socialmente responsabili e allineati eticamente.

English

In this research, we introduce BEATS, a novel framework for evaluating Bias, Ethics, Fairness, and Factuality in Large Language Models (LLMs). Building upon the BEATS framework, we present a bias benchmark for LLMs that measure performance across 29 distinct metrics. These metrics span a broad range of characteristics, including demographic, cognitive, and social biases, as well as measures of ethical reasoning, group fairness, and factuality related misinformation risk. These metrics enable a quantitative assessment of the extent to which LLM generated responses may perpetuate societal prejudices that reinforce or expand systemic inequities. To achieve a high score on this benchmark a LLM must show very equitable behavior in their responses, making it a rigorous standard for responsible AI evaluation. Empirical results based on data from our experiment show that, 37.65\% of outputs generated by industry leading models contained some form of bias, highlighting a substantial risk of using these models in critical decision making systems. BEATS framework and benchmark offer a scalable and statistically rigorous methodology to benchmark LLMs, diagnose factors driving biases, and develop mitigation strategies. With the BEATS framework, our goal is to help the development of more socially responsible and ethically aligned AI models.

BEATS: Suite di Valutazione e Analisi del Bias per Modelli Linguistici di Grande Dimensione

BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models

Abstract

Summary

Support

Support