ChatPaper.aiChatPaper

Измерение временных рассуждений и выравнивания по временным периодам китайских династий.

Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

February 24, 2025
Авторы: Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou
cs.AI

Аннотация

Временное рассуждение является фундаментальным для человеческого познания и имеет важное значение для различных прикладных областей. В то время как недавние достижения в области больших языковых моделей продемонстрировали многообещающие возможности во временном рассуждении, существующие бенчмарки в основном опираются на правила, лишены контекстуальной глубины и охватывают ограниченный набор временных сущностей. Для преодоления этих ограничений мы представляем Китайское Временное Рассуждение (CTM), бенчмарк, разработанный для оценки больших языковых моделей во временном рассуждении в обширной области китайской династической хронологии. CTM акцентирует взаимосвязи между сущностями, парное временное выравнивание и контекстуализированное и культурно обусловленное рассуждение, предоставляя комплексную оценку. Обширные экспериментальные результаты раскрывают вызовы, предъявляемые CTM, и выделяют потенциальные пути улучшения.
English
Temporal reasoning is fundamental to human cognition and is crucial for various real-world applications. While recent advances in Large Language Models have demonstrated promising capabilities in temporal reasoning, existing benchmarks primarily rely on rule-based construction, lack contextual depth, and involve a limited range of temporal entities. To address these limitations, we introduce Chinese Time Reasoning (CTM), a benchmark designed to evaluate LLMs on temporal reasoning within the extensive scope of Chinese dynastic chronology. CTM emphasizes cross-entity relationships, pairwise temporal alignment, and contextualized and culturally-grounded reasoning, providing a comprehensive evaluation. Extensive experimental results reveal the challenges posed by CTM and highlight potential avenues for improvement.

Summary

AI-Generated Summary

PDF74February 25, 2025