ChatPaper.aiChatPaper

Sbloccare un ragionamento efficiente da lungo a breve nei LLM attraverso il merging di modelli

Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging

March 26, 2025
Autori: Han Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan
cs.AI

Abstract

La transizione dal ragionamento di Sistema 1 a quello di Sistema 2 nei grandi modelli linguistici (LLM) ha segnato progressi significativi nella gestione di compiti complessi attraverso un pensiero deliberato e iterativo. Tuttavia, questo progresso spesso avviene a scapito dell'efficienza, poiché i modelli tendono a "pensare troppo", generando passaggi di ragionamento ridondanti senza miglioramenti proporzionali nella qualità dell'output. Il ragionamento da Lungo a Breve (Long-to-Short, L2S) è emerso come una soluzione promettente a questa sfida, mirando a bilanciare la profondità del ragionamento con l'efficienza pratica. Mentre approcci esistenti, come il fine-tuning supervisionato (SFT), l'apprendimento per rinforzo (RL) e l'ingegneria dei prompt, hanno mostrato potenziale, sono o computazionalmente costosi o instabili. La fusione di modelli, d'altro canto, offre un'alternativa economica e robusta integrando le capacità di pensiero rapido dei modelli di Sistema 1 con il ragionamento metodico dei modelli di Sistema 2. In questo lavoro, presentiamo uno studio empirico completo sulla fusione di modelli per il ragionamento L2S, esplorando diverse metodologie, tra cui la fusione basata su vettori di task, su SVD e su attivazioni informate. I nostri esperimenti rivelano che la fusione di modelli può ridurre la lunghezza media delle risposte fino al 55% preservando o addirittura migliorando le prestazioni di base. Identifichiamo inoltre una forte correlazione tra la scala del modello e l'efficacia della fusione attraverso valutazioni estese su modelli da 1,5B/7B/14B/32B. Inoltre, indaghiamo la capacità del modello fuso di autocriticarsi e autocorreggersi, nonché la sua lunghezza di risposta adattiva in base alla complessità del task. I nostri risultati evidenziano la fusione di modelli come un paradigma altamente efficiente ed efficace per il ragionamento L2S, offrendo una soluzione pratica al problema del "pensare troppo" mantenendo la robustezza del ragionamento di Sistema 2. Questo lavoro è disponibile su Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
English
The transition from System 1 to System 2 reasoning in large language models (LLMs) has marked significant advancements in handling complex tasks through deliberate, iterative thinking. However, this progress often comes at the cost of efficiency, as models tend to overthink, generating redundant reasoning steps without proportional improvements in output quality. Long-to-Short (L2S) reasoning has emerged as a promising solution to this challenge, aiming to balance reasoning depth with practical efficiency. While existing approaches, such as supervised fine-tuning (SFT), reinforcement learning (RL), and prompt engineering, have shown potential, they are either computationally expensive or unstable. Model merging, on the other hand, offers a cost-effective and robust alternative by integrating the quick-thinking capabilities of System 1 models with the methodical reasoning of System 2 models. In this work, we present a comprehensive empirical study on model merging for L2S reasoning, exploring diverse methodologies, including task-vector-based, SVD-based, and activation-informed merging. Our experiments reveal that model merging can reduce average response length by up to 55% while preserving or even improving baseline performance. We also identify a strong correlation between model scale and merging efficacy with extensive evaluations on 1.5B/7B/14B/32B models. Furthermore, we investigate the merged model's ability to self-critique and self-correct, as well as its adaptive response length based on task complexity. Our findings highlight model merging as a highly efficient and effective paradigm for L2S reasoning, offering a practical solution to the overthinking problem while maintaining the robustness of System 2 reasoning. This work can be found on Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.

Summary

AI-Generated Summary

PDF85March 27, 2025