ChatPaper.aiChatPaper

WiCkeD: Простой метод для повышения сложности тестов с множественным выбором

WiCkeD: A Simple Method to Make Multiple Choice Benchmarks More Challenging

February 25, 2025
Авторы: Ahmed Elhady, Eneko Agirre, Mikel Artetxe
cs.AI

Аннотация

Мы представляем WiCkeD — простой метод повышения сложности существующих тестов с множественным выбором путем случайной замены одного из вариантов ответа на «Ни один из вышеперечисленных», что часто используется в образовательных тестах. Мы показываем, что WiCkeD может быть автоматически применен к любому существующему тесту, делая его более сложным. Мы применяем WiCkeD к 6 популярным тестам и используем его для оценки 18 открытых языковых моделей (LLM). Производительность моделей снижается в среднем на 12,1 пункта по сравнению с оригинальными версиями наборов данных. При использовании цепочки рассуждений (chain-of-thought) на 3 наборах данных MMLU снижение производительности для варианта с WiCkeD аналогично тому, что наблюдается при использовании LLM напрямую, что показывает, что WiCkeD также представляет сложность для моделей с улучшенными способностями к рассуждению. WiCkeD также выявляет, что некоторые модели более чувствительны к дополнительным рассуждениям, предоставляя дополнительную информацию по сравнению с оригинальными тестами. Мы публикуем наш код и данные по адресу https://github.com/ahmedselhady/wicked-benchmarks.
English
We introduce WiCkeD, a simple method to increase the complexity of existing multiple-choice benchmarks by randomly replacing a choice with "None of the above", a method often used in educational tests. We show that WiCkeD can be automatically applied to any existing benchmark, making it more challenging. We apply WiCkeD to 6 popular benchmarks and use it to evaluate 18 open-weight LLMs. The performance of the models drops 12.1 points on average with respect to the original versions of the datasets. When using chain-of-thought on 3 MMLU datasets, the performance drop for the WiCkeD variant is similar to the one observed when using the LLMs directly, showing that WiCkeD is also challenging for models with enhanced reasoning abilities. WiCkeD also uncovers that some models are more sensitive to the extra reasoning required, providing additional information with respect to the original benchmarks. We relase our code and data at https://github.com/ahmedselhady/wicked-benchmarks.

Summary

AI-Generated Summary

PDF22February 26, 2025