Chinesisches SimpleQA: Eine chinesische Faktizitätsbewertung für große Sprachmodelle
Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models
November 11, 2024
Autoren: Yancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Hui Huang, Weixun Wang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Xuepeng Liu, Dekai Sun, Wenbo Su, Bo Zheng
cs.AI
Zusammenfassung
Neue Bewertungsmaßstäbe für LLM sind wichtig, um mit der schnellen Entwicklung von Large Language Models (LLMs) in Einklang zu stehen. In dieser Arbeit präsentieren wir Chinese SimpleQA, den ersten umfassenden chinesischen Maßstab zur Bewertung der Faktizitätsfähigkeit von Sprachmodellen, um kurze Fragen zu beantworten. Chinese SimpleQA hat hauptsächlich fünf Eigenschaften (d. h. Chinesisch, Vielfältig, Hochwertig, Statisch, Leicht zu bewerten). Speziell konzentrieren wir uns zunächst auf die chinesische Sprache über 6 Hauptthemen mit 99 verschiedenen Unterkategorien. Zweitens führen wir einen umfassenden Qualitätskontrollprozess durch, um hochwertige Fragen und Antworten zu erhalten, wobei die Referenzantworten statisch sind und im Laufe der Zeit nicht geändert werden können. Drittens sind die Fragen und Antworten gemäß SimpleQA sehr kurz, und der Bewertungsprozess ist leicht zu bewerten, basierend auf der OpenAI API. Basierend auf Chinese SimpleQA führen wir eine umfassende Bewertung der Faktizitätsfähigkeiten bestehender LLMs durch. Schließlich hoffen wir, dass Chinese SimpleQA den Entwicklern helfen könnte, die chinesischen Faktizitätsfähigkeiten ihrer Modelle besser zu verstehen und das Wachstum von Grundlagenmodellen zu erleichtern.
English
New LLM evaluation benchmarks are important to align with the rapid
development of Large Language Models (LLMs). In this work, we present Chinese
SimpleQA, the first comprehensive Chinese benchmark to evaluate the factuality
ability of language models to answer short questions, and Chinese SimpleQA
mainly has five properties (i.e., Chinese, Diverse, High-quality, Static,
Easy-to-evaluate). Specifically, first, we focus on the Chinese language over 6
major topics with 99 diverse subtopics. Second, we conduct a comprehensive
quality control process to achieve high-quality questions and answers, where
the reference answers are static and cannot be changed over time. Third,
following SimpleQA, the questions and answers are very short, and the grading
process is easy-to-evaluate based on OpenAI API. Based on Chinese SimpleQA, we
perform a comprehensive evaluation on the factuality abilities of existing
LLMs. Finally, we hope that Chinese SimpleQA could guide the developers to
better understand the Chinese factuality abilities of their models and
facilitate the growth of foundation models.Summary
AI-Generated Summary