I modelli di ragionamento possono essere efficaci senza pensare
Reasoning Models Can Be Effective Without Thinking
April 14, 2025
Autori: Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia
cs.AI
Abstract
I recenti LLM hanno migliorato significativamente le capacità di ragionamento, principalmente includendo un esplicito e prolungato processo di Pensiero come parte della generazione. In questo articolo, ci chiediamo se questo pensiero esplicito sia necessario. Utilizzando il modello all'avanguardia DeepSeek-R1-Distill-Qwen, scopriamo che bypassare il processo di pensiero tramite un semplice prompt, denominato NoThinking, può essere sorprendentemente efficace. Controllando il numero di token, NoThinking supera il Pensiero su un insieme diversificato di sette dataset di ragionamento impegnativi—inclusi la risoluzione di problemi matematici, la dimostrazione formale di teoremi e la codifica—specialmente in contesti a basso budget, ad esempio 51,3 vs. 28,9 su ACM 23 con 700 token. È degno di nota che le prestazioni di NoThinking diventino più competitive con pass@k all'aumentare di k. Basandoci su questa osservazione, dimostriamo che un approccio di scaling parallelo che utilizza NoThinking per generare N output in modo indipendente e aggregarli è altamente efficace. Per l'aggregazione, utilizziamo verificatori specifici per il compito quando disponibili, oppure applichiamo semplici strategie best-of-N come la selezione basata sulla confidenza. Il nostro metodo supera una gamma di baseline con una latenza simile utilizzando il Pensiero, ed è paragonabile al Pensiero con una latenza significativamente più lunga (fino a 9x). Insieme, la nostra ricerca incoraggia una riconsiderazione della necessità di lunghi processi di pensiero, stabilendo al contempo un riferimento competitivo per ottenere forti prestazioni di ragionamento in contesti a basso budget o a bassa latenza utilizzando lo scaling parallelo.
English
Recent LLMs have significantly improved reasoning capabilities, primarily by
including an explicit, lengthy Thinking process as part of generation. In this
paper, we question whether this explicit thinking is necessary. Using the
state-of-the-art DeepSeek-R1-Distill-Qwen, we find that bypassing the thinking
process via simple prompting, denoted as NoThinking, can be surprisingly
effective. When controlling for the number of tokens, NoThinking outperforms
Thinking across a diverse set of seven challenging reasoning
datasets--including mathematical problem solving, formal theorem proving, and
coding--especially in low-budget settings, e.g., 51.3 vs. 28.9 on ACM 23 with
700 tokens. Notably, the performance of NoThinking becomes more competitive
with pass@k as k increases. Building on this observation, we demonstrate that a
parallel scaling approach that uses NoThinking to generate N outputs
independently and aggregates them is highly effective. For aggregation, we use
task-specific verifiers when available, or we apply simple best-of-N strategies
such as confidence-based selection. Our method outperforms a range of baselines
with similar latency using Thinking, and is comparable to Thinking with
significantly longer latency (up to 9x). Together, our research encourages a
reconsideration of the necessity of lengthy thinking processes, while also
establishing a competitive reference for achieving strong reasoning performance
in low-budget settings or at low latency using parallel scaling.Summary
AI-Generated Summary