DataLogicQA: Avaliação Comparativa de Viés Temporal em Modelos de Linguagem de Grande Escala
DateLogicQA: Benchmarking Temporal Biases in Large Language Models
December 17, 2024
Autores: Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi
cs.AI
Resumo
Este artigo apresenta o DateLogicQA, um benchmark com 190 perguntas abrangendo diversos formatos de datas, contextos temporais e tipos de raciocínio. Propomos a Métrica de Integridade Semântica para avaliar a qualidade da tokenização e analisar dois vieses: Viés de Nível de Representação, afetando embeddings, e Viés de Nível Lógico, influenciando as saídas de raciocínio. Nossas descobertas fornecem uma avaliação abrangente das capacidades e limitações dos LLMs em raciocínio temporal, destacando os principais desafios em lidar com dados temporais com precisão. O repositório do GitHub para nosso trabalho está disponível em https://github.com/gagan3012/EAIS-Temporal-Bias
English
This paper introduces DateLogicQA, a benchmark with 190 questions covering
diverse date formats, temporal contexts, and reasoning types. We propose the
Semantic Integrity Metric to assess tokenization quality and analyse two
biases: Representation-Level Bias, affecting embeddings, and Logical-Level
Bias, influencing reasoning outputs. Our findings provide a comprehensive
evaluation of LLMs' capabilities and limitations in temporal reasoning,
highlighting key challenges in handling temporal data accurately. The GitHub
repository for our work is available at
https://github.com/gagan3012/EAIS-Temporal-BiasSummary
AI-Generated Summary