Sfide nella Valutazione Affidabile da Parte degli Esseri Umani dei Chatbot
Challenges in Trustworthy Human Evaluation of Chatbots
December 5, 2024
Autori: Wenting Zhao, Alexander M. Rush, Tanya Goyal
cs.AI
Abstract
Piattaforme aperte guidate dalla comunità come Chatbot Arena, che raccolgono dati sulle preferenze degli utenti dai visitatori del sito, hanno acquisito una reputazione come uno dei benchmark pubblicamente disponibili più affidabili per le prestazioni dei LLM. Anche se ormai standard, è complicato implementare guide efficaci per raccogliere annotazioni di alta qualità da parte degli esseri umani. In questo articolo, dimostriamo che tre fonti di cattive annotazioni, sia malintenzionate che non, possono corrompere l'affidabilità delle classifiche della classifica aperta. In particolare, mostriamo che solo il 10\% dei voti di scarsa qualità da parte di annotatori apatici (visitatori del sito non adeguatamente incentivati a dare voti corretti) o avversari (attori malintenzionati che cercano di gonfiare la classifica di un modello target) possono cambiare la posizione dei modelli fino a 5 posti nella classifica. Infine, discutiamo le sfide aperte nel garantire annotazioni umane di alta qualità.
English
Open community-driven platforms like Chatbot Arena that collect user
preference data from site visitors have gained a reputation as one of the most
trustworthy publicly available benchmarks for LLM performance. While now
standard, it is tricky to implement effective guardrails to collect
high-quality annotations from humans. In this paper, we demonstrate that three
sources of bad annotations, both malicious and otherwise, can corrupt the
reliability of open leaderboard rankings. In particular, we show that only 10\%
of poor quality votes by apathetic (site visitors not appropriately
incentivized to give correct votes) or adversarial (bad actors seeking to
inflate the ranking of a target model) annotators can change the rankings of
models by up to 5 places on the leaderboard. Finally, we discuss open
challenges in ensuring high-quality human annotations.Summary
AI-Generated Summary