ChatPaper.aiChatPaper

Täuschender Humor: Ein synthetischer mehrsprachiger Benchmark-Datensatz zur Verbindung von fabrizierten Behauptungen mit humorvollem Inhalt

Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content

March 20, 2025
Autoren: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya
cs.AI

Zusammenfassung

Dieses Papier stellt das Deceptive Humor Dataset (DHD) vor, eine neuartige Ressource zur Erforschung von Humor, der aus erfundenen Behauptungen und Fehlinformationen abgeleitet wird. In einer Ära der weit verbreiteten Fehlinformationen ist es entscheidend zu verstehen, wie Humor mit Täuschung verflochten ist. Das DHD besteht aus humorvollen Kommentaren, die aus falschen Narrativen generiert wurden und erfundene Behauptungen sowie manipulierte Informationen unter Verwendung des ChatGPT-4o-Modells enthalten. Jeder Eintrag ist mit einem Satire-Level gekennzeichnet, der von 1 für subtile Satire bis 3 für hochgradige Satire reicht, und in fünf verschiedene Humorkategorien eingeteilt: Schwarzer Humor, Ironie, Gesellschaftskritik, Wortspiel und Absurdität. Der Datensatz umfasst mehrere Sprachen, darunter Englisch, Telugu, Hindi, Kannada, Tamil und deren code-mixed Varianten (Te-En, Hi-En, Ka-En, Ta-En), was ihn zu einem wertvollen multilingualen Benchmark macht. Mit der Einführung des DHD schaffen wir eine strukturierte Grundlage für die Analyse von Humor in täuschenden Kontexten und ebnen den Weg für eine neue Forschungsrichtung, die untersucht, wie Humor nicht nur mit Fehlinformationen interagiert, sondern auch deren Wahrnehmung und Verbreitung beeinflusst. Wir etablieren starke Baselines für den vorgeschlagenen Datensatz und bieten eine Grundlage für zukünftige Forschung, um Modelle zur Erkennung von täuschendem Humor zu benchmarken und weiterzuentwickeln.
English
This paper presents the Deceptive Humor Dataset (DHD), a novel resource for studying humor derived from fabricated claims and misinformation. In an era of rampant misinformation, understanding how humor intertwines with deception is essential. DHD consists of humor-infused comments generated from false narratives, incorporating fabricated claims and manipulated information using the ChatGPT-4o model. Each instance is labeled with a Satire Level, ranging from 1 for subtle satire to 3 for high-level satire and classified into five distinct Humor Categories: Dark Humor, Irony, Social Commentary, Wordplay, and Absurdity. The dataset spans multiple languages including English, Telugu, Hindi, Kannada, Tamil, and their code-mixed variants (Te-En, Hi-En, Ka-En, Ta-En), making it a valuable multilingual benchmark. By introducing DHD, we establish a structured foundation for analyzing humor in deceptive contexts, paving the way for a new research direction that explores how humor not only interacts with misinformation but also influences its perception and spread. We establish strong baselines for the proposed dataset, providing a foundation for future research to benchmark and advance deceptive humor detection models.

Summary

AI-Generated Summary

PDF32March 21, 2025