Chinese SimpleQA: Een Chinese factualiteitsbeoordeling voor grote taalmodellen
Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models
November 11, 2024
Auteurs: Yancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Hui Huang, Weixun Wang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Xuepeng Liu, Dekai Sun, Wenbo Su, Bo Zheng
cs.AI
Samenvatting
Nieuwe LLM-evaluatiecriteria zijn belangrijk om aan te sluiten bij de snelle ontwikkeling van Grote Taalmodellen (LLMs). In dit werk presenteren we Chinese SimpleQA, het eerste uitgebreide Chinese evaluatiecriterium om de feitelijke vaardigheid van taalmodellen te beoordelen om korte vragen te beantwoorden, en Chinese SimpleQA heeft voornamelijk vijf eigenschappen (d.w.z. Chinees, Divers, Hoogwaardig, Statisch, Gemakkelijk te evalueren). Specifiek richten we ons eerst op de Chinese taal over 6 belangrijke onderwerpen met 99 diverse subonderwerpen. Ten tweede voeren we een uitgebreid kwaliteitscontroleproces uit om hoogwaardige vragen en antwoorden te verkrijgen, waarbij de referentieantwoorden statisch zijn en in de loop van de tijd niet kunnen worden gewijzigd. Ten derde, in navolging van SimpleQA, zijn de vragen en antwoorden zeer kort, en het beoordelingsproces is gemakkelijk te evalueren op basis van de OpenAI API. Op basis van Chinese SimpleQA voeren we een uitgebreide evaluatie uit van de feitelijke vaardigheden van bestaande LLMs. Tot slot hopen we dat Chinese SimpleQA de ontwikkelaars kan begeleiden om een beter begrip te krijgen van de Chinese feitelijke vaardigheden van hun modellen en de groei van basismodellen kan bevorderen.
English
New LLM evaluation benchmarks are important to align with the rapid
development of Large Language Models (LLMs). In this work, we present Chinese
SimpleQA, the first comprehensive Chinese benchmark to evaluate the factuality
ability of language models to answer short questions, and Chinese SimpleQA
mainly has five properties (i.e., Chinese, Diverse, High-quality, Static,
Easy-to-evaluate). Specifically, first, we focus on the Chinese language over 6
major topics with 99 diverse subtopics. Second, we conduct a comprehensive
quality control process to achieve high-quality questions and answers, where
the reference answers are static and cannot be changed over time. Third,
following SimpleQA, the questions and answers are very short, and the grading
process is easy-to-evaluate based on OpenAI API. Based on Chinese SimpleQA, we
perform a comprehensive evaluation on the factuality abilities of existing
LLMs. Finally, we hope that Chinese SimpleQA could guide the developers to
better understand the Chinese factuality abilities of their models and
facilitate the growth of foundation models.Summary
AI-Generated Summary