Понимание и прогнозирование срывов в токсичных обсуждениях на GitHub
Understanding and Predicting Derailment in Toxic Conversations on GitHub
March 4, 2025
Авторы: Mia Mohammad Imran, Robert Zita, Rebekah Copeland, Preetha Chatterjee, Rahat Rizvi Rahman, Kostadin Damevski
cs.AI
Аннотация
Успех программных проектов зависит от вовлеченности и вклада людей с разными профессиональными и личными предпосылками. Однако токсичный язык и негативные взаимодействия могут препятствовать участию и удержанию участников, а также отпугивать новичков. Проактивные стратегии модерации направлены на предотвращение токсичности, своевременно устраняя отклонения в обсуждениях от их первоначальной цели. Данное исследование ставит своей целью понять и предсказать отклонения в беседах, ведущие к токсичности на платформе GitHub.
Для проведения исследования мы создали новый набор данных, включающий 202 токсичных обсуждения с GitHub с аннотированными точками отклонения, а также 696 нетоксичных обсуждений в качестве контрольной группы. На основе этого набора данных мы выявили уникальные характеристики токсичных бесед и точек отклонения, включая лингвистические маркеры, такие как местоимения второго лица, отрицательные термины, а также тон горечи, разочарования и нетерпения, а также закономерности в динамике обсуждений между участниками проекта и внешними участниками.
Опираясь на эти эмпирические наблюдения, мы предлагаем проактивный подход к модерации, который автоматически обнаруживает и устраняет потенциально вредные обсуждения до их эскалации. Используя современные языковые модели (LLM), мы разработали метод обобщения траектории беседы, который фиксирует эволюцию обсуждений и выявляет ранние признаки отклонения. Наши эксперименты показывают, что промпты LLM, адаптированные для создания сводок обсуждений на GitHub, достигают F1-меры в 69% при прогнозировании отклонений в беседах, значительно превосходя набор базовых подходов.
English
Software projects thrive on the involvement and contributions of individuals
from different backgrounds. However, toxic language and negative interactions
can hinder the participation and retention of contributors and alienate
newcomers. Proactive moderation strategies aim to prevent toxicity from
occurring by addressing conversations that have derailed from their intended
purpose. This study aims to understand and predict conversational derailment
leading to toxicity on GitHub.
To facilitate this research, we curate a novel dataset comprising 202 toxic
conversations from GitHub with annotated derailment points, along with 696
non-toxic conversations as a baseline. Based on this dataset, we identify
unique characteristics of toxic conversations and derailment points, including
linguistic markers such as second-person pronouns, negation terms, and tones of
Bitter Frustration and Impatience, as well as patterns in conversational
dynamics between project contributors and external participants.
Leveraging these empirical observations, we propose a proactive moderation
approach to automatically detect and address potentially harmful conversations
before escalation. By utilizing modern LLMs, we develop a conversation
trajectory summary technique that captures the evolution of discussions and
identifies early signs of derailment. Our experiments demonstrate that LLM
prompts tailored to provide summaries of GitHub conversations achieve 69%
F1-Score in predicting conversational derailment, strongly improving over a set
of baseline approaches.Summary
AI-Generated Summary