RealHarm: Una raccolta di fallimenti reali nell'applicazione di modelli linguistici
RealHarm: A Collection of Real-World Language Model Application Failures
April 14, 2025
Autori: Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
cs.AI
Abstract
L'implementazione di modelli linguistici in applicazioni rivolte ai consumatori introduce numerosi rischi. Mentre la ricerca esistente sui danni e sui pericoli di tali applicazioni segue approcci top-down derivati da framework normativi e analisi teoriche, le evidenze empiriche sulle modalità di fallimento nel mondo reale rimangono poco esplorate. In questo lavoro, introduciamo RealHarm, un dataset di interazioni problematiche annotate con agenti di intelligenza artificiale, costruito attraverso una revisione sistematica di incidenti riportati pubblicamente. Analizzando i danni, le cause e i pericoli specificamente dal punto di vista del distributore, scopriamo che il danno reputazionale costituisce il danno organizzativo predominante, mentre la disinformazione emerge come la categoria di pericolo più comune. Valutiamo empiricamente i sistemi di protezione e moderazione dei contenuti all'avanguardia per verificare se tali sistemi avrebbero prevenuto gli incidenti, rivelando un significativo divario nella protezione delle applicazioni di intelligenza artificiale.
English
Language model deployments in consumer-facing applications introduce numerous
risks. While existing research on harms and hazards of such applications
follows top-down approaches derived from regulatory frameworks and theoretical
analyses, empirical evidence of real-world failure modes remains underexplored.
In this work, we introduce RealHarm, a dataset of annotated problematic
interactions with AI agents built from a systematic review of publicly reported
incidents. Analyzing harms, causes, and hazards specifically from the
deployer's perspective, we find that reputational damage constitutes the
predominant organizational harm, while misinformation emerges as the most
common hazard category. We empirically evaluate state-of-the-art guardrails and
content moderation systems to probe whether such systems would have prevented
the incidents, revealing a significant gap in the protection of AI
applications.Summary
AI-Generated Summary