Chinese SimpleQA: Una valutazione della factualità cinese per modelli linguistici di grandi dimensioni
Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models
November 11, 2024
Autori: Yancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Hui Huang, Weixun Wang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Xuepeng Liu, Dekai Sun, Wenbo Su, Bo Zheng
cs.AI
Abstract
I nuovi benchmark di valutazione LLM sono importanti per allinearsi con lo sviluppo rapido dei Large Language Models (LLM). In questo lavoro, presentiamo il Chinese SimpleQA, il primo benchmark cinese completo per valutare l'abilità di factualità dei modelli linguistici nel rispondere a domande brevi, e il Chinese SimpleQA ha principalmente cinque proprietà (cioè, Cinese, Diversificato, Di alta qualità, Statico, Facile da valutare). In particolare, ci concentriamo sulla lingua cinese su 6 argomenti principali con 99 sottotematiche diverse. In secondo luogo, conduciamo un processo di controllo di qualità completo per ottenere domande e risposte di alta qualità, dove le risposte di riferimento sono statiche e non possono essere modificate nel tempo. Terzo, seguendo il SimpleQA, le domande e risposte sono molto brevi, e il processo di valutazione è facile da valutare basandosi sull'API di OpenAI. Basandoci sul Chinese SimpleQA, effettuiamo una valutazione completa sulle abilità di factualità dei LLM esistenti. Infine, speriamo che il Chinese SimpleQA possa guidare gli sviluppatori a comprendere meglio le abilità di factualità cinesi dei loro modelli e facilitare la crescita dei modelli fondamentali.
English
New LLM evaluation benchmarks are important to align with the rapid
development of Large Language Models (LLMs). In this work, we present Chinese
SimpleQA, the first comprehensive Chinese benchmark to evaluate the factuality
ability of language models to answer short questions, and Chinese SimpleQA
mainly has five properties (i.e., Chinese, Diverse, High-quality, Static,
Easy-to-evaluate). Specifically, first, we focus on the Chinese language over 6
major topics with 99 diverse subtopics. Second, we conduct a comprehensive
quality control process to achieve high-quality questions and answers, where
the reference answers are static and cannot be changed over time. Third,
following SimpleQA, the questions and answers are very short, and the grading
process is easy-to-evaluate based on OpenAI API. Based on Chinese SimpleQA, we
perform a comprehensive evaluation on the factuality abilities of existing
LLMs. Finally, we hope that Chinese SimpleQA could guide the developers to
better understand the Chinese factuality abilities of their models and
facilitate the growth of foundation models.Summary
AI-Generated Summary