ChatPaper.aiChatPaper

RealHarm: Una raccolta di fallimenti reali nell'applicazione di modelli linguistici

RealHarm: A Collection of Real-World Language Model Application Failures

April 14, 2025
Autori: Pierre Le Jeune, Jiaen Liu, Luca Rossi, Matteo Dora
cs.AI

Abstract

L'implementazione di modelli linguistici in applicazioni rivolte ai consumatori introduce numerosi rischi. Mentre la ricerca esistente sui danni e sui pericoli di tali applicazioni segue approcci top-down derivati da framework normativi e analisi teoriche, le evidenze empiriche sulle modalità di fallimento nel mondo reale rimangono poco esplorate. In questo lavoro, introduciamo RealHarm, un dataset di interazioni problematiche annotate con agenti di intelligenza artificiale, costruito attraverso una revisione sistematica di incidenti riportati pubblicamente. Analizzando i danni, le cause e i pericoli specificamente dal punto di vista del distributore, scopriamo che il danno reputazionale costituisce il danno organizzativo predominante, mentre la disinformazione emerge come la categoria di pericolo più comune. Valutiamo empiricamente i sistemi di protezione e moderazione dei contenuti all'avanguardia per verificare se tali sistemi avrebbero prevenuto gli incidenti, rivelando un significativo divario nella protezione delle applicazioni di intelligenza artificiale.
English
Language model deployments in consumer-facing applications introduce numerous risks. While existing research on harms and hazards of such applications follows top-down approaches derived from regulatory frameworks and theoretical analyses, empirical evidence of real-world failure modes remains underexplored. In this work, we introduce RealHarm, a dataset of annotated problematic interactions with AI agents built from a systematic review of publicly reported incidents. Analyzing harms, causes, and hazards specifically from the deployer's perspective, we find that reputational damage constitutes the predominant organizational harm, while misinformation emerges as the most common hazard category. We empirically evaluate state-of-the-art guardrails and content moderation systems to probe whether such systems would have prevented the incidents, revealing a significant gap in the protection of AI applications.

Summary

AI-Generated Summary

PDF103April 16, 2025