Modelli di Ragionamento Efficiente: Una Rassegna
Efficient Reasoning Models: A Survey
April 15, 2025
Autori: Sicheng Feng, Gongfan Fang, Xinyin Ma, Xinchao Wang
cs.AI
Abstract
I modelli di ragionamento hanno dimostrato progressi significativi nella risoluzione di compiti complessi e logico-intensivi generando estese Catene di Pensiero (Chain-of-Thoughts, CoTs) prima di arrivare a una risposta finale. Tuttavia, l'emergere di questo paradigma di "pensiero lento", con numerosi token generati in sequenza, introduce inevitabilmente un sovraccarico computazionale sostanziale. A tal fine, evidenzia un'urgente necessità di accelerazione efficace. Questo survey mira a fornire una panoramica completa dei recenti progressi nel ragionamento efficiente. Categorizza i lavori esistenti in tre direzioni chiave: (1) più breve - comprimere le lunghe CoTs in catene di ragionamento concise ma efficaci; (2) più piccolo - sviluppare modelli linguistici compatti con forti capacità di ragionamento attraverso tecniche come la distillazione della conoscenza, altre tecniche di compressione dei modelli e l'apprendimento per rinforzo; e (3) più veloce - progettare strategie di decodifica efficienti per accelerare l'inferenza. Una raccolta curata di articoli discussi in questo survey è disponibile nel nostro repository GitHub.
English
Reasoning models have demonstrated remarkable progress in solving complex and
logic-intensive tasks by generating extended Chain-of-Thoughts (CoTs) prior to
arriving at a final answer. Yet, the emergence of this "slow-thinking"
paradigm, with numerous tokens generated in sequence, inevitably introduces
substantial computational overhead. To this end, it highlights an urgent need
for effective acceleration. This survey aims to provide a comprehensive
overview of recent advances in efficient reasoning. It categorizes existing
works into three key directions: (1) shorter - compressing lengthy CoTs into
concise yet effective reasoning chains; (2) smaller - developing compact
language models with strong reasoning capabilities through techniques such as
knowledge distillation, other model compression techniques, and reinforcement
learning; and (3) faster - designing efficient decoding strategies to
accelerate inference. A curated collection of papers discussed in this survey
is available in our GitHub repository.Summary
AI-Generated Summary