DateLogicQA:大規模言語モデルにおける時間的バイアスのベンチマーク化
DateLogicQA: Benchmarking Temporal Biases in Large Language Models
December 17, 2024
著者: Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi
cs.AI
要旨
本論文では、さまざまな日付形式、時間的文脈、および推論タイプをカバーする190の質問を備えたベンチマークであるDateLogicQAを紹介します。我々は、トークン化の品質を評価するためのSemantic Integrity Metricを提案し、埋め込みに影響を与えるRepresentation-Level Biasと、推論の出力に影響を与えるLogical-Level Biasの2つのバイアスを分析します。我々の調査結果は、時間的推論におけるLLMの能力と限界を包括的に評価し、時間データを正確に処理する際の主要な課題を明らかにします。当該研究のGitHubリポジトリは、以下のURLから入手可能です:https://github.com/gagan3012/EAIS-Temporal-Bias
English
This paper introduces DateLogicQA, a benchmark with 190 questions covering
diverse date formats, temporal contexts, and reasoning types. We propose the
Semantic Integrity Metric to assess tokenization quality and analyse two
biases: Representation-Level Bias, affecting embeddings, and Logical-Level
Bias, influencing reasoning outputs. Our findings provide a comprehensive
evaluation of LLMs' capabilities and limitations in temporal reasoning,
highlighting key challenges in handling temporal data accurately. The GitHub
repository for our work is available at
https://github.com/gagan3012/EAIS-Temporal-BiasSummary
AI-Generated Summary