ChatPaper.aiChatPaper

LLM 성능 평가를 위한 소음이 있는 제로샷 프록시로서의 언어 복잡도 측정

Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance

February 17, 2025
저자: Birger Moell, Johan Boye
cs.AI

초록

대형 언어 모델 (LLMs)은 자연어 생성에서 상당한 발전을 이루었지만, 종종 정확한 계산과 구조적 분석이 필요한 작업에서 어려움을 겪습니다. 본 논문은 최신 LLMs의 성능을 언어 복잡성 측정 작업에서 조사하며, LIX 가독성 측정 및 평균 의존 거리(ADD)를 계산합니다. 스웨덴 고등학교 및 대학 수준의 수필을 사용하여, 우리는 모델이 LIX 점수를 계산하고 의존 구문 분석을 수행하는 능력을 평가하며, 그 결과를 확립된 기준과 비교합니다. 우리의 연구 결과는 모든 모델이 이러한 작업을 수행할 능력을 보여주지만, ChatGPT-o1-mini가 가장 일관되게 성과를 내며, LIX 계산 및 의존 구문 분석 모두에서 가장 높은 정확도를 달성한다는 것을 보여줍니다. 게다가, 우리는 LIX 계산에서 모델의 정확도와 Massive Multitask Language Understanding (MMLU) 벤치마크에서의 전반적인 성능 사이에 강력한 유의한 상관 관계 -0.875 p 0.026 (N=6)를 관찰합니다. 이러한 결과는 언어 복잡성 측정 능력이 LLMs의 일반적인 능력을 평가하는 데에 사용될 수 있는 소음이 있는 제로샷 프록시로 작용할 수 있음을 시사하며, 방대한 벤치마킹 데이터셋이 필요하지 않은 모델 평가를 위한 실용적인 방법을 제공합니다.
English
Large Language Models (LLMs) have made significant strides in natural language generation but often face challenges in tasks requiring precise calculations and structural analysis. This paper investigates the performance of state-of-the-art LLMs on language complexity measurement tasks, through the computation of the LIX readability metric and Average Dependency Distance (ADD). Using Swedish high school and university-level essays, we evaluate the models' abilities to compute LIX scores and perform dependency parsing, comparing their results to established ground truths. Our findings reveal that while all models demonstrate some capacity for these tasks, ChatGPT-o1-mini performs most consistently, achieving the highest accuracy in both LIX computation and dependency parsing. Additionally, we observe a strong significant correlation -0.875 p 0.026 (N=6) between the models' accuracy in computing LIX and their overall performance on the Massive Multitask Language Understanding (MMLU) benchmark. These results suggest that language complexity measurement abilities can serve as a noisy zero-shot proxies for assessing the general capabilities of LLMs, providing a practical method for model evaluation without the need for extensive benchmarking datasets.

Summary

AI-Generated Summary

PDF02February 18, 2025