Effizientes Lang-zu-Kurz-LLM-Schließen durch Modellzusammenführung freischalten
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
March 26, 2025
Autoren: Han Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan
cs.AI
Zusammenfassung
Der Übergang von System 1 zu System 2 in großen Sprachmodellen (LLMs) hat bedeutende Fortschritte bei der Bewältigung komplexer Aufgaben durch gezieltes, iteratives Denken markiert. Dieser Fortschritt geht jedoch oft auf Kosten der Effizienz, da Modelle dazu neigen, übermäßig zu denken und redundante Denkschritte zu generieren, ohne dass sich die Qualität der Ausgaben proportional verbessert. Long-to-Short (L2S)-Denken hat sich als vielversprechende Lösung für diese Herausforderung erwiesen, die darauf abzielt, die Tiefe des Denkens mit praktischer Effizienz in Einklang zu bringen. Während bestehende Ansätze wie überwachtes Fein-Tuning (SFT), Reinforcement Learning (RL) und Prompt-Engineering Potenzial gezeigt haben, sind sie entweder rechenintensiv oder instabil. Modellfusion hingegen bietet eine kosteneffiziente und robuste Alternative, indem sie die schnellen Denkfähigkeiten von System-1-Modellen mit dem methodischen Denken von System-2-Modellen integriert. In dieser Arbeit präsentieren wir eine umfassende empirische Studie zur Modellfusion für L2S-Denken, in der wir verschiedene Methodologien untersuchen, darunter aufgabenvektorbasierte, SVD-basierte und aktivierungsinformierte Fusion. Unsere Experimente zeigen, dass die Modellfusion die durchschnittliche Antwortlänge um bis zu 55 % reduzieren kann, während die Baseline-Leistung erhalten bleibt oder sogar verbessert wird. Wir identifizieren auch eine starke Korrelation zwischen der Modellgröße und der Fusionswirksamkeit durch umfangreiche Bewertungen an 1,5B/7B/14B/32B-Modellen. Darüber hinaus untersuchen wir die Fähigkeit des fusionierten Modells zur Selbstkritik und Selbstkorrektur sowie seine adaptive Antwortlänge basierend auf der Aufgabenkomplexität. Unsere Ergebnisse unterstreichen die Modellfusion als ein hocheffizientes und effektives Paradigma für L2S-Denken, das eine praktische Lösung für das Überdenkungsproblem bietet und gleichzeitig die Robustheit des System-2-Denkens bewahrt. Diese Arbeit ist auf Github verfügbar: https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
English
The transition from System 1 to System 2 reasoning in large language models
(LLMs) has marked significant advancements in handling complex tasks through
deliberate, iterative thinking. However, this progress often comes at the cost
of efficiency, as models tend to overthink, generating redundant reasoning
steps without proportional improvements in output quality. Long-to-Short (L2S)
reasoning has emerged as a promising solution to this challenge, aiming to
balance reasoning depth with practical efficiency. While existing approaches,
such as supervised fine-tuning (SFT), reinforcement learning (RL), and prompt
engineering, have shown potential, they are either computationally expensive or
unstable. Model merging, on the other hand, offers a cost-effective and robust
alternative by integrating the quick-thinking capabilities of System 1 models
with the methodical reasoning of System 2 models. In this work, we present a
comprehensive empirical study on model merging for L2S reasoning, exploring
diverse methodologies, including task-vector-based, SVD-based, and
activation-informed merging. Our experiments reveal that model merging can
reduce average response length by up to 55% while preserving or even improving
baseline performance. We also identify a strong correlation between model scale
and merging efficacy with extensive evaluations on 1.5B/7B/14B/32B models.
Furthermore, we investigate the merged model's ability to self-critique and
self-correct, as well as its adaptive response length based on task complexity.
Our findings highlight model merging as a highly efficient and effective
paradigm for L2S reasoning, offering a practical solution to the overthinking
problem while maintaining the robustness of System 2 reasoning. This work can
be found on Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.Summary
AI-Generated Summary