Effiziente Modellentwicklung durch Feinabstimmung von Transferlernen
Efficient Model Development through Fine-tuning Transfer
March 25, 2025
Autoren: Pin-Jie Lin, Rishab Balasubramanian, Fengyuan Liu, Nikhil Kandpal, Tu Vu
cs.AI
Zusammenfassung
Moderne LLMs haben Schwierigkeiten mit effizienten Aktualisierungen, da jede neue Version eines vortrainierten Modells die Wiederholung kostspieliger Alignment-Prozesse erfordert. Diese Herausforderung gilt auch für domänen- oder sprachspezifische Modelle, bei denen das Fine-Tuning auf spezialisierten Daten für jede neue Basis-Modellversion erneut durchgeführt werden muss. In diesem Artikel untersuchen wir die Übertragung von Fine-Tuning-Aktualisierungen zwischen Modellversionen. Konkret leiten wir den Diff-Vektor aus einer Quellmodellversion ab, der die Gewichtsänderungen durch das Fine-Tuning darstellt, und wenden ihn auf das Basismodell einer anderen Zielversion an. Durch empirische Auswertungen verschiedener Open-Weight-Modellversionen zeigen wir, dass die Übertragung von Diff-Vektoren das Ziel-Basismodell erheblich verbessern kann, oft mit einer Leistung, die der des feinabgestimmten Gegenstücks entspricht. Beispielsweise führt die Wiederverwendung der Fine-Tuning-Aktualisierungen von Llama 3.0 8B zu einer absoluten Genauigkeitssteigerung von 10,7 % auf GPQA gegenüber dem Basis-Modell Llama 3.1 8B ohne zusätzliches Training, womit Llama 3.1 8B Instruct übertroffen wird. In einem mehrsprachigen Modellentwicklungssetting zeigen wir, dass dieser Ansatz die Leistung bei Aufgaben in der Zielsprache ohne erneutes Training erheblich steigern kann, mit absoluten Verbesserungen von 4,7 % und 15,5 % auf Global MMLU für Malagasy bzw. Türkisch im Vergleich zu Llama 3.1 8B Instruct. Unsere kontrollierten Experimente zeigen, dass die Fine-Tuning-Übertragung am effektivsten ist, wenn die Quell- und Zielmodelle im Parameterraum linear verbunden sind. Zudem demonstrieren wir, dass die Fine-Tuning-Übertragung einen stärkeren und recheneffizienteren Ausgangspunkt für weiteres Fine-Tuning bietet. Schließlich schlagen wir einen iterativen Ansatz des Recyclings gefolgt von Fine-Tuning für die kontinuierliche Modellentwicklung vor, der sowohl Effizienz als auch Effektivität verbessert. Unsere Ergebnisse deuten darauf hin, dass die Fine-Tuning-Übertragung eine praktikable Strategie ist, um Trainingskosten zu reduzieren und gleichzeitig die Modellleistung aufrechtzuerhalten.
English
Modern LLMs struggle with efficient updates, as each new pretrained model
version requires repeating expensive alignment processes. This challenge also
applies to domain- or language-specific models, where fine-tuning on
specialized data must be redone for every new base model release. In this
paper, we explore the transfer of fine-tuning updates between model versions.
Specifically, we derive the diff vector from one source model version, which
represents the weight changes from fine-tuning, and apply it to the base model
of a different target version. Through empirical evaluations on various
open-weight model versions, we show that transferring diff vectors can
significantly improve the target base model, often achieving performance
comparable to its fine-tuned counterpart. For example, reusing the fine-tuning
updates from Llama 3.0 8B leads to an absolute accuracy improvement of 10.7% on
GPQA over the base Llama 3.1 8B without additional training, surpassing Llama
3.1 8B Instruct. In a multilingual model development setting, we show that this
approach can significantly increase performance on target-language tasks
without retraining, achieving an absolute improvement of 4.7% and 15.5% on
Global MMLU for Malagasy and Turkish, respectively, compared to Llama 3.1 8B
Instruct. Our controlled experiments reveal that fine-tuning transfer is most
effective when the source and target models are linearly connected in the
parameter space. Additionally, we demonstrate that fine-tuning transfer offers
a stronger and more computationally efficient starting point for further
fine-tuning. Finally, we propose an iterative recycling-then-finetuning
approach for continuous model development, which improves both efficiency and
effectiveness. Our findings suggest that fine-tuning transfer is a viable
strategy to reduce training costs while maintaining model performance.Summary
AI-Generated Summary