THOUGHTTERMINATOR: Benchmarken, Kalibreren en Mitigeren van Overdenken in Redeneermodellen
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models
April 17, 2025
Auteurs: Xiao Pu, Michael Saxon, Wenyue Hua, William Yang Wang
cs.AI
Samenvatting
Redeneermodellen hebben indrukwekkende prestaties getoond op moeilijke taken
waar traditionele taalmodelen moeite mee hebben. Veel modellen kampen echter met
het probleem van overdenken—het genereren van grote hoeveelheden onnodige tokens
die de nauwkeurigheid van een vraag niet verbeteren. We introduceren benaderende
maatstaven voor probleemniveau-moeilijkheid en tonen aan dat er een duidelijk
verband bestaat tussen probleemmoeilijkheid en optimale tokenbesteding, en
evalueren hoe goed een verscheidenheid aan redeneermodellen zijn afgestemd op
het efficiënt toewijzen van het optimale aantal tokens. We constateren dat
redeneermodellen over het algemeen slecht zijn afgestemd, vooral op eenvoudige
problemen. Om de afstemming op eenvoudige vragen te evalueren, introduceren we
DUMB500, een dataset van extreem eenvoudige wiskunde-, redeneer-, code- en
taakproblemen, en evalueren we redeneermodellen gezamenlijk op deze eenvoudige
voorbeelden en extreem moeilijke voorbeelden uit bestaande toonaangevende
benchmarks binnen hetzelfde taakdomein. Tot slot introduceren we
THOUGHTTERMINATOR, een trainingsvrije black box-decoderingstechniek die de
afstemming van redeneermodellen aanzienlijk verbetert.
English
Reasoning models have demonstrated impressive performance on difficult tasks
that traditional language models struggle at. However, many are plagued with
the problem of overthinking--generating large amounts of unnecessary tokens
which don't improve accuracy on a question. We introduce approximate measures
of problem-level difficulty and demonstrate that a clear relationship between
problem difficulty and optimal token spend exists, and evaluate how well
calibrated a variety of reasoning models are in terms of efficiently allocating
the optimal token count. We find that in general, reasoning models are poorly
calibrated, particularly on easy problems. To evaluate calibration on easy
questions we introduce DUMB500, a dataset of extremely easy math, reasoning,
code, and task problems, and jointly evaluate reasoning model on these simple
examples and extremely difficult examples from existing frontier benchmarks on
the same task domain. Finally, we introduce THOUGHTTERMINATOR, a training-free
black box decoding technique that significantly improves reasoning model
calibration.Summary
AI-Generated Summary