맥락화된 반어: 적응, 개인화 및 평가 전략
Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation
December 10, 2024
저자: Lorenzo Cima, Alessio Miaschi, Amaury Trujillo, Marco Avvenuti, Felice Dell'Orletta, Stefano Cresci
cs.AI
초록
AI가 생성한 반발 발언은 공손한 토론을 촉진하는 직접적인 답변을 통해 온라인 독성을 억제하는 유망하고 확장 가능한 전략을 제공합니다. 그러나 현재의 반발 발언은 일률적이며, 조절 맥락과 관련된 사용자에 맞게 적응되지 않습니다. 우리는 조절 맥락에 적응되고 조절된 사용자에 맞게 개인화된 반발 발언을 생성하는 여러 전략을 제안하고 평가합니다. 우리는 LLaMA2-13B 모델에 반발 발언 생성을 지시하고, 다양한 맥락 정보와 세밀한 조정 전략에 기반한 다양한 구성을 실험합니다. 우리는 사전 등록된 혼합 설계 크라우드소싱 실험을 통해 수집된 양적 지표와 인간 평가를 결합하여 설득력 있는 반발 발언을 생성하는 구성을 식별합니다. 결과는 맥락화된 반발 발언이 적절성과 설득력 측면에서 최첨단 일반 반발 발언을 크게 능가할 수 있음을 보여주며, 다른 특성을 희생하지 않습니다. 우리의 연구 결과는 양적 지표와 인간 평가 사이의 약한 상관 관계를 보여주며, 이러한 방법이 서로 다른 측면을 평가하며 세밀한 평가 방법의 필요성을 강조합니다. 맥락화된 AI가 생성한 반발 발언의 효과와 인간과 알고리즘 평가 사이의 차이는 콘텐츠 조절에서 증가하는 인간-AI 협업의 중요성을 강조합니다.
English
AI-generated counterspeech offers a promising and scalable strategy to curb
online toxicity through direct replies that promote civil discourse. However,
current counterspeech is one-size-fits-all, lacking adaptation to the
moderation context and the users involved. We propose and evaluate multiple
strategies for generating tailored counterspeech that is adapted to the
moderation context and personalized for the moderated user. We instruct an
LLaMA2-13B model to generate counterspeech, experimenting with various
configurations based on different contextual information and fine-tuning
strategies. We identify the configurations that generate persuasive
counterspeech through a combination of quantitative indicators and human
evaluations collected via a pre-registered mixed-design crowdsourcing
experiment. Results show that contextualized counterspeech can significantly
outperform state-of-the-art generic counterspeech in adequacy and
persuasiveness, without compromising other characteristics. Our findings also
reveal a poor correlation between quantitative indicators and human
evaluations, suggesting that these methods assess different aspects and
highlighting the need for nuanced evaluation methodologies. The effectiveness
of contextualized AI-generated counterspeech and the divergence between human
and algorithmic evaluations underscore the importance of increased human-AI
collaboration in content moderation.Summary
AI-Generated Summary