Sbloccare un ragionamento efficiente da lungo a breve nei LLM attraverso il merging di modelli
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
March 26, 2025
Autori: Han Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan
cs.AI
Abstract
La transizione dal ragionamento di Sistema 1 a quello di Sistema 2 nei grandi modelli linguistici (LLM) ha segnato progressi significativi nella gestione di compiti complessi attraverso un pensiero deliberato e iterativo. Tuttavia, questo progresso spesso avviene a scapito dell'efficienza, poiché i modelli tendono a "pensare troppo", generando passaggi di ragionamento ridondanti senza miglioramenti proporzionali nella qualità dell'output. Il ragionamento da Lungo a Breve (Long-to-Short, L2S) è emerso come una soluzione promettente a questa sfida, mirando a bilanciare la profondità del ragionamento con l'efficienza pratica. Mentre approcci esistenti, come il fine-tuning supervisionato (SFT), l'apprendimento per rinforzo (RL) e l'ingegneria dei prompt, hanno mostrato potenziale, sono o computazionalmente costosi o instabili. La fusione di modelli, d'altro canto, offre un'alternativa economica e robusta integrando le capacità di pensiero rapido dei modelli di Sistema 1 con il ragionamento metodico dei modelli di Sistema 2. In questo lavoro, presentiamo uno studio empirico completo sulla fusione di modelli per il ragionamento L2S, esplorando diverse metodologie, tra cui la fusione basata su vettori di task, su SVD e su attivazioni informate. I nostri esperimenti rivelano che la fusione di modelli può ridurre la lunghezza media delle risposte fino al 55% preservando o addirittura migliorando le prestazioni di base. Identifichiamo inoltre una forte correlazione tra la scala del modello e l'efficacia della fusione attraverso valutazioni estese su modelli da 1,5B/7B/14B/32B. Inoltre, indaghiamo la capacità del modello fuso di autocriticarsi e autocorreggersi, nonché la sua lunghezza di risposta adattiva in base alla complessità del task. I nostri risultati evidenziano la fusione di modelli come un paradigma altamente efficiente ed efficace per il ragionamento L2S, offrendo una soluzione pratica al problema del "pensare troppo" mantenendo la robustezza del ragionamento di Sistema 2. Questo lavoro è disponibile su Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
English
The transition from System 1 to System 2 reasoning in large language models
(LLMs) has marked significant advancements in handling complex tasks through
deliberate, iterative thinking. However, this progress often comes at the cost
of efficiency, as models tend to overthink, generating redundant reasoning
steps without proportional improvements in output quality. Long-to-Short (L2S)
reasoning has emerged as a promising solution to this challenge, aiming to
balance reasoning depth with practical efficiency. While existing approaches,
such as supervised fine-tuning (SFT), reinforcement learning (RL), and prompt
engineering, have shown potential, they are either computationally expensive or
unstable. Model merging, on the other hand, offers a cost-effective and robust
alternative by integrating the quick-thinking capabilities of System 1 models
with the methodical reasoning of System 2 models. In this work, we present a
comprehensive empirical study on model merging for L2S reasoning, exploring
diverse methodologies, including task-vector-based, SVD-based, and
activation-informed merging. Our experiments reveal that model merging can
reduce average response length by up to 55% while preserving or even improving
baseline performance. We also identify a strong correlation between model scale
and merging efficacy with extensive evaluations on 1.5B/7B/14B/32B models.
Furthermore, we investigate the merged model's ability to self-critique and
self-correct, as well as its adaptive response length based on task complexity.
Our findings highlight model merging as a highly efficient and effective
paradigm for L2S reasoning, offering a practical solution to the overthinking
problem while maintaining the robustness of System 2 reasoning. This work can
be found on Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.Summary
AI-Generated Summary