Когда языковая модель сомневается в своих ответах — и когда её неуверенность обоснована —
When an LLM is apprehensive about its answers -- and when its uncertainty is justified
March 3, 2025
Авторы: Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev
cs.AI
Аннотация
Оценка неопределенности имеет решающее значение для анализа работы крупных языковых моделей (LLM), особенно в высокорисковых областях, где неправильные ответы могут привести к серьезным последствиям. Многочисленные подходы рассматривают эту проблему, сосредотачиваясь на конкретном типе неопределенности и игнорируя другие. Мы исследуем, какие оценки, в частности энтропия на уровне токенов и подход "модель как судья" (MASJ), будут эффективны для задач с множественным выбором в различных тематических областях. Наши эксперименты охватывают три LLM: Phi-4, Mistral и Qwen разных размеров — от 1,5 млрд до 72 млрд параметров — и 14 тематик. В то время как MASJ демонстрирует результаты, сопоставимые с случайным предсказателем ошибок, энтропия ответов предсказывает ошибки модели в областях, зависящих от знаний, и служит эффективным индикатором сложности вопросов: для биологии ROC AUC составляет 0,73. Эта корреляция исчезает в областях, зависящих от логического мышления: для математических вопросов ROC-AUC равен 0,55. Более принципиально, мы выяснили, что мера энтропии требует определенного уровня рассуждений. Таким образом, энтропия, связанная с неопределенностью данных, должна быть интегрирована в рамки оценки неопределенности, в то время как MASJ требует доработки. Кроме того, существующие выборки MMLU-Pro смещены и должны быть сбалансированы по требуемому уровню рассуждений для различных поддоменов, чтобы обеспечить более справедливую оценку производительности LLM.
English
Uncertainty estimation is crucial for evaluating Large Language Models
(LLMs), particularly in high-stakes domains where incorrect answers result in
significant consequences. Numerous approaches consider this problem, while
focusing on a specific type of uncertainty, ignoring others. We investigate
what estimates, specifically token-wise entropy and model-as-judge (MASJ),
would work for multiple-choice question-answering tasks for different question
topics. Our experiments consider three LLMs: Phi-4, Mistral, and Qwen of
different sizes from 1.5B to 72B and 14 topics. While MASJ performs similarly
to a random error predictor, the response entropy predicts model error in
knowledge-dependent domains and serves as an effective indicator of question
difficulty: for biology ROC AUC is 0.73. This correlation vanishes for the
reasoning-dependent domain: for math questions ROC-AUC is 0.55. More
principally, we found out that the entropy measure required a reasoning amount.
Thus, data-uncertainty related entropy should be integrated within uncertainty
estimates frameworks, while MASJ requires refinement. Moreover, existing
MMLU-Pro samples are biased, and should balance required amount of reasoning
for different subdomains to provide a more fair assessment of LLMs performance.Summary
AI-Generated Summary