ChatPaper.aiChatPaper

La Mancanza di Premesse Esacerba il Sovrapensiero: I Modelli di Ragionamento stanno Perdendo le Abilità di Pensiero Critico?

Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

April 9, 2025
Autori: Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI

Abstract

Riscontriamo che la lunghezza delle risposte dei modelli linguistici di ragionamento (LLM), sia quelli addestrati con apprendimento per rinforzo che con apprendimento supervisionato, aumenta drasticamente per domande mal poste con premesse mancanti (MiP), risultando in un pensiero ridondante e inefficace. Questo scenario appena introdotto aggrava in larga misura il problema generale del sovrapensiero, che abbiamo denominato MiP-Overthinking. Tali fallimenti contraddicono la "legge di scala al momento del test" ma sono stati ampiamente osservati su più dataset che abbiamo curato con MiP, indicando il danno del sovrapensiero a basso costo e una mancanza di pensiero critico. Sorprendentemente, i modelli linguistici non specificamente addestrati per il ragionamento mostrano prestazioni molto migliori nello scenario MiP, producendo risposte molto più brevi che identificano rapidamente le query mal poste. Ciò implica una grave lacuna nell'attuale metodo di addestramento per i modelli linguistici di ragionamento, che non incoraggia adeguatamente un pensiero efficiente, portando all'abuso di schemi di pensiero. Per indagare ulteriormente le ragioni dietro tali fallimenti, conduciamo analisi dettagliate della lunghezza del ragionamento, degli schemi di sovrapensiero e della posizione del pensiero critico su diversi tipi di modelli linguistici. Inoltre, il nostro studio di ablazione esteso rivela che il sovrapensiero è contagioso attraverso la distillazione delle risposte dei modelli di ragionamento. Questi risultati migliorano la comprensione del sovrapensiero e offrono nuove intuizioni per mitigare il problema.
English
We find that the response length of reasoning LLMs, whether trained by reinforcement learning or supervised learning, drastically increases for ill-posed questions with missing premises (MiP), ending up with redundant and ineffective thinking. This newly introduced scenario exacerbates the general overthinking issue to a large extent, which we name as the MiP-Overthinking. Such failures are against the ``test-time scaling law'' but have been widely observed on multiple datasets we curated with MiP, indicating the harm of cheap overthinking and a lack of critical thinking. Surprisingly, LLMs not specifically trained for reasoning exhibit much better performance on the MiP scenario, producing much shorter responses that quickly identify ill-posed queries. This implies a critical flaw of the current training recipe for reasoning LLMs, which does not encourage efficient thinking adequately, leading to the abuse of thinking patterns. To further investigate the reasons behind such failures, we conduct fine-grained analyses of the reasoning length, overthinking patterns, and location of critical thinking on different types of LLMs. Moreover, our extended ablation study reveals that the overthinking is contagious through the distillation of reasoning models' responses. These results improve the understanding of overthinking and shed novel insights into mitigating the problem.

Summary

AI-Generated Summary

PDF363April 10, 2025