ChatPaper.aiChatPaper

LINGOLY-TOO: Разделение запоминания и рассуждений с помощью лингвистической шаблонизации и орфографической обфускации

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

March 4, 2025
Авторы: Jude Khouja, Karolina Korgul, Simi Hellsten, Lingyi Yang, Vlad Neacs, Harry Mayne, Ryan Kearns, Andrew Bean, Adam Mahdi
cs.AI

Аннотация

Эффективная оценка способностей крупных языковых моделей (LLM) к рассуждению может быть завышена из-за знакомства моделей с данными из оценочных тестов. Мы представляем фреймворк для создания лингвистических задач на рассуждение, который снижает влияние запоминания на оценки производительности моделей, и применяем этот фреймворк для разработки LINGOLY-TOO — сложного теста для оценки лингвистического рассуждения. Используя орфографические шаблоны, мы динамически маскируем системы письма реальных языков для генерации множества вариаций вопросов. Эти вариации сохраняют шаги рассуждения, необходимые для решения, но уменьшают вероятность появления конкретных примеров задач в обучающих данных моделей. Наши эксперименты показывают, что передовые модели, включая OpenAI o1-preview и DeepSeem R1, испытывают трудности с продвинутыми рассуждениями. Анализ также демонстрирует, что LLM проявляют заметные различия в точности при решении перестановок одной и той же задачи и в среднем лучше справляются с вопросами, представленными в их исходной орфографии. Наши результаты подчеркивают непрозрачный характер генерации ответов в LLM и предоставляют доказательства того, что предварительное знакомство с данными способствует завышению оценок способностей передовых моделей к рассуждению.
English
Effective evaluation of the reasoning capabilities of large language models (LLMs) are susceptible to overestimation due to data exposure of evaluation benchmarks. We introduce a framework for producing linguistic reasoning problems that reduces the effect of memorisation in model performance estimates and apply this framework to develop LINGOLY-TOO, a challenging evaluation benchmark for linguistic reasoning. By developing orthographic templates, we dynamically obfuscate the writing systems of real languages to generate numerous question variations. These variations preserve the reasoning steps required for each solution while reducing the likelihood of specific problem instances appearing in model training data. Our experiments demonstrate that frontier models, including OpenAI o1-preview and DeepSeem R1, struggle with advanced reasoning. Our analysis also shows that LLMs exhibit noticeable variance in accuracy across permutations of the same problem, and on average perform better on questions appearing in their original orthography. Our findings highlight the opaque nature of response generation in LLMs and provide evidence that prior data exposure contributes to overestimating the reasoning capabilities of frontier models.

Summary

AI-Generated Summary

PDF233March 7, 2025