DateLogicQA: Valutazione delle distorsioni temporali nei grandi modelli linguistici
DateLogicQA: Benchmarking Temporal Biases in Large Language Models
December 17, 2024
Autori: Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi
cs.AI
Abstract
Questo articolo introduce DateLogicQA, un benchmark con 190 domande che coprono diversi formati di date, contesti temporali e tipi di ragionamento. Proponiamo la Metrica di Integrità Semantica per valutare la qualità della tokenizzazione e analizziamo due bias: il Bias a Livello di Rappresentazione, che influisce sulle incapsulazioni, e il Bias a Livello Logico, che influenza le uscite del ragionamento. I nostri risultati forniscono una valutazione esaustiva delle capacità e dei limiti dei LLM nel ragionamento temporale, evidenziando le sfide principali nel gestire i dati temporali con precisione. Il repository GitHub per il nostro lavoro è disponibile su https://github.com/gagan3012/EAIS-Temporal-Bias
English
This paper introduces DateLogicQA, a benchmark with 190 questions covering
diverse date formats, temporal contexts, and reasoning types. We propose the
Semantic Integrity Metric to assess tokenization quality and analyse two
biases: Representation-Level Bias, affecting embeddings, and Logical-Level
Bias, influencing reasoning outputs. Our findings provide a comprehensive
evaluation of LLMs' capabilities and limitations in temporal reasoning,
highlighting key challenges in handling temporal data accurately. The GitHub
repository for our work is available at
https://github.com/gagan3012/EAIS-Temporal-BiasSummary
AI-Generated Summary