ChatPaper.aiChatPaper

챗봇의 신뢰성 있는 인간 평가에서의 과제

Challenges in Trustworthy Human Evaluation of Chatbots

December 5, 2024
저자: Wenting Zhao, Alexander M. Rush, Tanya Goyal
cs.AI

초록

Chatbot Arena와 같은 개방형 커뮤니티 주도 플랫폼은 사이트 방문자로부터 사용자 선호도 데이터를 수집하여 LLM 성능에 대한 가장 신뢰할 수 있는 공개 벤치마크 중 하나로 평가받고 있습니다. 이제는 표준으로 채택되었지만, 효과적인 가드레일을 구현하여 인간으로부터 고품질 주석을 수집하는 것은 까다로운 과제입니다. 본 논문에서는 악의적이거나 그 외의 세 가지 나쁜 주석 소스가 개방형 리더보드 순위의 신뢰성을 훼손할 수 있다는 것을 보여줍니다. 특히, 무관심한 (사이트 방문자가 올바른 투표를 제대로 하도록 자극받지 못한) 또는 적대적인 (대상 모델의 순위를 높이려는 나쁜 행위자) 주석 작성자들에 의해 생성된 저품질 투표의 10%만이 모델의 순위를 리더보드에서 최대 5곳까지 변경할 수 있다는 것을 보여줍니다. 마지막으로, 고품질 인간 주석을 보장하는 데 관한 개방적인 과제에 대해 논의합니다.
English
Open community-driven platforms like Chatbot Arena that collect user preference data from site visitors have gained a reputation as one of the most trustworthy publicly available benchmarks for LLM performance. While now standard, it is tricky to implement effective guardrails to collect high-quality annotations from humans. In this paper, we demonstrate that three sources of bad annotations, both malicious and otherwise, can corrupt the reliability of open leaderboard rankings. In particular, we show that only 10\% of poor quality votes by apathetic (site visitors not appropriately incentivized to give correct votes) or adversarial (bad actors seeking to inflate the ranking of a target model) annotators can change the rankings of models by up to 5 places on the leaderboard. Finally, we discuss open challenges in ensuring high-quality human annotations.

Summary

AI-Generated Summary

PDF32December 6, 2024