Chinese SimpleQA : Une évaluation de la factualité chinoise pour les grands modèles de langage.
Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models
November 11, 2024
Auteurs: Yancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Hui Huang, Weixun Wang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Xuepeng Liu, Dekai Sun, Wenbo Su, Bo Zheng
cs.AI
Résumé
De nouveaux critères d'évaluation des LLM sont importants pour s'aligner sur le développement rapide des grands modèles de langage (LLM). Dans ce travail, nous présentons le Chinese SimpleQA, le premier banc d'essai chinois complet pour évaluer la capacité factuelle des modèles linguistiques à répondre à des questions courtes. Le Chinese SimpleQA présente principalement cinq caractéristiques (c'est-à-dire chinois, diversifié, de haute qualité, statique, facile à évaluer). Plus précisément, nous nous concentrons d'abord sur la langue chinoise sur 6 grands sujets avec 99 sous-sujets diversifiés. Ensuite, nous menons un processus complet de contrôle de la qualité pour obtenir des questions et des réponses de haute qualité, où les réponses de référence sont statiques et ne peuvent pas être modifiées dans le temps. Troisièmement, suivant le modèle SimpleQA, les questions et réponses sont très courtes, et le processus de notation est facile à évaluer en se basant sur l'API OpenAI. En nous basant sur le Chinese SimpleQA, nous réalisons une évaluation complète des capacités factuelles des LLM existants. Enfin, nous espérons que le Chinese SimpleQA pourra guider les développeurs pour mieux comprendre les capacités factuelles chinoises de leurs modèles et faciliter la croissance des modèles de base.
English
New LLM evaluation benchmarks are important to align with the rapid
development of Large Language Models (LLMs). In this work, we present Chinese
SimpleQA, the first comprehensive Chinese benchmark to evaluate the factuality
ability of language models to answer short questions, and Chinese SimpleQA
mainly has five properties (i.e., Chinese, Diverse, High-quality, Static,
Easy-to-evaluate). Specifically, first, we focus on the Chinese language over 6
major topics with 99 diverse subtopics. Second, we conduct a comprehensive
quality control process to achieve high-quality questions and answers, where
the reference answers are static and cannot be changed over time. Third,
following SimpleQA, the questions and answers are very short, and the grading
process is easy-to-evaluate based on OpenAI API. Based on Chinese SimpleQA, we
perform a comprehensive evaluation on the factuality abilities of existing
LLMs. Finally, we hope that Chinese SimpleQA could guide the developers to
better understand the Chinese factuality abilities of their models and
facilitate the growth of foundation models.Summary
AI-Generated Summary